本研究聚焦于某游戏公司SRE(Site Reliability Engineering,网站可靠性工程)指标设计与效果分析的实践报告。报告以腾讯游戏设计可观测指标的痛点为切入点,深入探讨了如何从SRE视角出发设计游戏可观测指标,并提出了进一步优化指标实践的方法。最终,报告总结了SRE视角下的游戏指标实践模式,并对未来发展进行了展望。
腾讯游戏设计可观测指标的痛点: 鉴于腾讯游戏业务的复杂性,涵盖纯自研、纯代理、合作研发和委托研发等多种模式,以及众多游戏开发厂商、多样化的开发语言、丰富多样的游戏类型、架构差异显著,且各游戏间相互独立,业务场景差异巨大,导致指标监控系统繁复,面临海量数据处理、环境差异、调用关系链复杂、使用成本高昂、故障定位困难、维护效率低下等挑战。
如何通过SRE视角设计游戏可观测指标: 在SRE视角下,指标观测遵循“measure everything”原则,重视系统整体稳定性和可靠性,设计面向SLO(Service Level Objectives,服务等级目标)的指标体系。SRE倡导“左移”,即在初始设计阶段影响架构决策,确保从一开始就内置质量和可靠性。具体方法包括: - 面向SLO服务等级的指标体系:运维关注业务整体稳定性指标,优先考虑贴近用户的指标,从上往下梳理黄金指标并持续优化。 - 面向云原生业务的指标体系:通过云原生技术和微服务改造,协助开发进行架构设计和改造,设计云原生业务的指标。
SRE视角下指标观测的具体实践: - 问题参与角色输出简易方法:明确用户列表、功能列表、服务等级、功能对应的SLO、SLI列表、统计方法及指标类型等。 - 游戏业务按品类划分:不同游戏品类的功能侧重点不同,如FPS/MOBA类重单局,SLG/MMORPG/卡牌类重养成。 - 游戏关键监控SLI指标:涵盖黄金指标,如对局网络延迟、对局退出分析、重连率、掉线数等。 - 游戏业务的SLO服务等级的指标梳理:以玩家感受和功能设计为主要目标,从游戏玩家的关键旅程梳理SLI,覆盖游戏关键路径和核心场景。 - 游戏业务的SLO实践:通过SLO大盘和多业务手游/端游SLO大屏,统一数据、横向拉通、关联告警,降低MTTR(故障恢复时间)。
如何让指标实践更进一步: - BKMonitor As Code:通过自动化方式提升可观测系统的部署效率,实现可观测标准范例跨业务可复制。 - 实现方案评估:对比自建Prometheus和Grafana的社区方案,提出BKMonitor As Code的优势,如配置简单、批量管理、版本控制等。 - 平台的开放化和插件化:蓝鲸监控落地游戏业务插件开发,如tbus监控插件、SLO稳定性指标获取插件、etcd监控插件等。 - SRE理念——工具开发和自动化:赋能运维,业务运维自定义快速实现各类组件开发,提高运维效率,降低开发和维护成本。
总结与展望: - SRE视角下的游戏指标实践模式:主动发现服务和功能拆分后的调用关系监控,面向服务等级的SLO指标受到威胁时才需要人工介入,减少告警噪声,提高运维效率。 - 研运合作模式:引入GitOps和Everything As Code,将业务可观测纳入版本管理审计并进行持续部署,提升业务的研运效率。 - 数据关联且场景关联:引入监控的平台能力和服务场景联动,SLO作为业务稳定性的官方指标,用于提升业务稳定性的数据标准,提高问题定位效率。 - SRE建设中的思考:关注成本,实践SRE文化,用软件工程化的思维把游戏业务的工作场景工程化,向平台化靠拢,做到可衡量、可管理、可复制,并持续优化和创新。
本研究为游戏公司的SRE指标设计与效果分析提供了宝贵的实践经验,展示了如何通过SRE视角设计可观测指标,提升运维效率,优化游戏业务的稳定性,实现研运合作新模式,推动游戏业务的数字化转型。
|