某游戏公司系统可靠性工程（SRE）指标体系构建及效果评估研究

slbenben

某游戏公司SRE（Site Reliability Engineering，网站可靠性工程）指标设计与效果分析的实践报告。报告以腾讯游戏设计可观测指标的痛点为切入点，深入探讨了如何从SRE视角出发设计游戏可观测指标，并提出了进一步优化指标实践的方法。最终，报告总结了SRE视角下的游戏指标实践模式，并对未来发展进行了展望。

腾讯游戏设计可观测指标的痛点：

鉴于腾讯游戏业务的复杂性，涵盖纯自研、纯代理、合作研发和委托研发等多种模式，以及众多游戏开发厂商、多样化的开发语言、丰富多样的游戏类型、架构差异显著，且各游戏间相互独立，业务场景差异巨大，导致指标监控系统繁复，面临海量数据处理、环境差异、调用关系链复杂、使用成本高昂、故障定位困难、维护效率低下等挑战。

如何通过SRE视角设计游戏可观测指标：

在SRE视角下，指标观测遵循“measure everything”原则，重视系统整体稳定性和可靠性，设计面向SLO（Service Level Objectives，服务等级目标）的指标体系。SRE倡导“左移”，即在初始设计阶段影响架构决策，确保从一开始就内置质量和可靠性。具体方法包括：

- 面向SLO服务等级的指标体系：运维关注业务整体稳定性指标，优先考虑贴近用户的指标，从上往下梳理黄金指标并持续优化。

- 面向云原生业务的指标体系：通过云原生技术和微服务改造，协助开发进行架构设计和改造，设计云原生业务的指标。

SRE视角下指标观测的具体实践：

- 问题参与角色输出简易方法：明确用户列表、功能列表、服务等级、功能对应的SLO、SLI列表、统计方法及指标类型等。

- 游戏业务按品类划分：不同游戏品类的功能侧重点不同，如FPS/MOBA类重单局，SLG/MMORPG/卡牌类重养成。

- 游戏关键监控SLI指标：涵盖黄金指标，如对局网络延迟、对局退出分析、重连率、掉线数等。

- 游戏业务的SLO服务等级的指标梳理：以玩家感受和功能设计为主要目标，从游戏玩家的关键旅程梳理SLI，覆盖游戏关键路径和核心场景。

- 游戏业务的SLO实践：通过SLO大盘和多业务手游/端游SLO大屏，统一数据、横向拉通、关联告警，降低MTTR（故障恢复时间）。

如何让指标实践更进一步：

- BKMonitor As Code：通过自动化方式提升可观测系统的部署效率，实现可观测标准范例跨业务可复制。

- 实现方案评估：对比自建Prometheus和Grafana的社区方案，提出BKMonitor As Code的优势，如配置简单、批量管理、版本控制等。

- 平台的开放化和插件化：蓝鲸监控落地游戏业务插件开发，如tbus监控插件、SLO稳定性指标获取插件、etcd监控插件等。

- SRE理念——工具开发和自动化：赋能运维，业务运维自定义快速实现各类组件开发，提高运维效率，降低开发和维护成本。

总结与展望：

- SRE视角下的游戏指标实践模式：主动发现服务和功能拆分后的调用关系监控，面向服务等级的SLO指标受到威胁时才需要人工介入，减少告警噪声，提高运维效率。

- 研运合作模式：引入GitOps和Everything As Code，将业务可观测纳入版本管理审计并进行持续部署，提升业务的研运效率。

- 数据关联且场景关联：引入监控的平台能力和服务场景联动，SLO作为业务稳定性的官方指标，用于提升业务稳定性的数据标准，提高问题定位效率。

- SRE建设中的思考：关注成本，实践SRE文化，用软件工程化的思维把游戏业务的工作场景工程化，向平台化靠拢，做到可衡量、可管理、可复制，并持续优化和创新。

游戏公司的SRE指标设计与效果分析，展示了如何通过SRE视角设计可观测指标，提升运维效率，优化游戏业务的稳定性，实现研运合作新模式，推动游戏业务的数字化转型。

IT运维管理：ITIL先锋论坛—某游戏公司SRE指标设计与效果分析.pdf

上一篇：某企业低代码与DevOps的融合创新实践
下一篇：一种快速故障修复策略（SRE）在信息技术运维管理中的应用

某游戏公司系统可靠性工程（SRE）指标体系构建及效果评估研究

评论