某互联网企业系统可靠性工程师团队构建

slbenben

一家互联网企业中SRE（Site Reliability Engineering，即网站可靠性工程）组织构建的实践案例分析，该案例由国内领先的数字化时代IT服务管理交流平台ITIL先锋论坛提供。本报告从大型组织SRE战略规划、业务部门执行层面、以及SRE职能边界三个维度，深入阐述了该企业在SRE组织构建方面的实践经验和策略。

大型组织SRE战略规划：

Google的SRE模型，强调了SRE团队通过软件工程师改进软件系统，实现自动化操作以取代传统的人工操作模式。SRE团队的人员构成主要由50%-60%的标准软件工程师和40%-50%具备其他技术专长的工程师组成。SRE团队的特征在于对重复性和手工性任务的天然排斥，以及快速开发软件系统以取代手工操作的技术能力。SRE团队与产品研发部门在学术背景和工作性质上具有高度相似性，本质上是运用软件工程的方法和思维来完成传统由系统管理团队手动执行的任务。

业务部门执行层面：

SRE平台工程和SRE技术服务的概念，并强调了工程化思维和理论参考的重要性。具体措施涵盖：

- SRE平台工程：包括定制化桌面、开发者中心、开发框架、企业服务总线、API网关、单点登录、低代码平台等。

- SRE技术服务：涵盖用户管理、配置平台、作业平台、容器管理平台、计算平台、AIOps平台、项目管理等。

- 业务生命周期：从需求出发，结合理论参考和工程化思维，应对研发需求变化、云原生技术、游戏研发模式变革、DevOps工程、GitOps、CI/CD、微服务比重增加、全球多地协同研发、制作管线工程、业务全球化、多国多地区版本发布、微服务与容器化、自动化工程、ITIL的AI融合、长尾业务、可观测性工程、稳定性、容量工程、自动评估与成本控制、可靠性工程、MTBF/MTTR、混沌工程、AIOps工程等挑战。

SRE职能边界：

SRE的职能边界和前沿探索，强调了SRE在研发可用性建设中的核心作用。具体措施包括：

- SRE驱动的研发工业化改造：构建提升可用性的preBuild方案细节，从生产环境性能优化、云原生改造、业务支撑能力提升等方面着手。

- SRE驱动的云原生改造：涉及ClusterAutoscaler、Kubernetes、AWS、Media Storage、ClusterManager、LgsEtaM等资源池试点转型团队的阶段性进展。

- SRE在游戏中的指标设计与实践：扩展CA基础模型，关注云原生业务的指标，包括ClusterAutoscaler、Kubernetes、AWS等。

实施效果：

实施SRE组织构建的成效，包括：

- 团队能力提升：500+团队成员，10+业务支撑转变为多工程并行，44+云原生改造业务，23%月优化运营成本，8+人均业务数，60+人均效能提升，400W可观测能力项，代码即运维能力，SLI/SLO。

- 管理模式创新：降低成本、复用人力资源，将固定业务运维模式转变为跨业务运维模式；长尾业务平台化管理，实现多人互备，多人Oncall模式；提升效率、业务支撑转变为多工程并行，提升支撑效率；工程化运作模式，强调工作长期价值和复用价值，提升多业务服务效率。

- 人才培养：建立SRE人才梯队培养模式，定义各专业职级与必修的工程场景对照；OnCall互备可以降低工作压力，跨游戏业务服务可以降低工作枯燥感。

案例为互联网企业的SRE组织构建提供了宝贵的实践参考，展示了如何通过SRE平台工程和SRE技术服务，提升团队能力，创新管理模式，培养SRE人才，实现降本增效。报告强调了SRE在研发可用性建设中的核心作用，以及在云原生改造中的关键角色，为其他企业提供了可借鉴的实践路径。

IT运维管理：ITIL先锋论坛—某互联网公司的SRE组织建设.pdf

上一篇：某大型国有企业信息技术运维管理体系规划实践研究
下一篇：关于AIOps智能运维实践的案例研究

某互联网企业系统可靠性工程师团队构建

评论