×

微信扫一扫,快捷登录!

SRE的基本指导思想  

标签: 暂无标签
本部分将描述 SRE日常工作背后的指导思想——工作模式、行为方式,以及平时运维工作中关注的重点等。

本部分的第一章(第3章)是最重要的一章。这一章从最广泛的角度描述了SRE的日常工作,以及背后的指导思想。这一章从"风险"入手,描述了如何评估风险、管理风险,以及利用错误预算的手段来推进中立性的服务运维。

服务质量目标(SLO)是 SRE 的另外一个基本概念。运维行业经常会将一系列离散的概念都归结为服务质量协议(SLA),这样使得讨论变得很复杂。第4 章试图将 SLO与SLA区分开来,详细描述 SRE 是如何区分这两个术语的,同时针对应用程序性能指标的选择提供了一些建议。

消除琐事(toil)是SRE的一项重要工作,详情请参见第 5章。我们将琐事定义为无聊、重复性的运维工作,这些工作通常不具有长期价值,而且会随着服务规模的扩大而增长。

对Google 或者其他任何一个公司来说,监控系统都是运维生产环境必不可少的组件。如果没有针对服务的监控,就无从得知目前服务的状态,如果不知道服务的状态,就无从谈起维护服务的可靠性。第6章描述了监控的手段和目标、以及一些与具体实现无关的最佳实践。

第7章描述了Google SRE进行自动化工作的方法论。这一章同时讨论了SRE在自动化过程中的一些成功和失败的案例。

大部分公司不太重视发布工作。然而,在第8章中,我们可以看到,发布工作是整体系统稳定性的一个关键环节,因为大部分故障都是由于新的变更引起的。在这方面的投入也可以保障每次发布的顺利进行。




上一篇:莎士比亚搜索∶SRE负责的一个示范服务
下一篇:如何管理IT系统可靠性风险
FYIRH

写了 198 篇文章,拥有财富 1122,被 1 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies
東東 发表于 2020-11-30 15:58:36
:)
東東 发表于 2020-11-30 15:59:13
:)
Powered by IT 运维管理
返回顶部