这篇文章,咱们聊聊一家互联网巨头的混合云大数据SRE(网站可靠性工程)的实战经验。从头到尾,咱们会看到大数据SRE体系是怎么在成长期和成熟期一步步搭建起来的,还有未来的打算,目标就是让大数据平台更稳当,运维更给力。
先说背景和挑战:
这家公司业务多得是,覆盖了国内300多个城市,用户和司机数量庞大。大数据平台得扛起10PB+的存储量和20K+的日均任务数,分布在好几个IDC和云服务上。大数据的使命就是推动业务数字化,让公司业绩蹭蹭往上涨。不过呢,挑战也不少,比如核心组件会悄无声息地挂掉、监控指标不全、运维方式还停留在**时代、故障频发等等。
大数据SRE体系建设 - 成长期:
成长期的时候,公司从脚本化改造开始,慢慢搭起了自动化运维体系。重点包括:
- 监控告警体系:建起了大数据侧的监控告警体系,基础设施的问题100%能通过监控告警系统发现并预警。
- 运维规范:制定了大数据基础架构变更规范,让变更操作有法可依。
- 标准化和一致性:梳理定义了SOP,确保线上不同组件机型、参数、配置都一个样。
- 脚本化建设:把高频操作脚本化改造了,用ansible-playbook编排运维脚本。
大数据SRE体系建设 - 成熟期:
到了成熟期,建设更看重稳定性和成本控制,具体措施有:
- 稳定性保障:针对大数据领域的多样性(在线/实时/离线)和稳定性保障的特殊性,制定了故障管理规范,确保故障复盘率和整改完成率100%。
- 监控告警能力:加强了监控告警体系,核心业务接入率提升至100%,线上问题几乎100%能被监控告警提前发现。
- 资源治理:做了容量规划和预警,建立了公司级核心链路和部门级资源保障能力。
- 平台/引擎治理:对高风险bug进行了修复,治理了不合理和不安全参数,让平台能力更强。
- 保障规范:建立了研发和发布规范,故障管理规范,以及平台能力增强措施。
后续规划,包括:
- 场景支撑:继续加强大数据场景的支撑能力。
- 稳定性保障:进一步提升大数据稳定性和安全性。
- 智能运维体系:构建大数据智能化运维体系1.0,实现大数据全场景稳定性(在线/实时/离线)。
- 成本管理:优化成本管理,提高资源利用效率。
思考与总结:
对大数据SRE团队职责边界的思考:探讨在全面上云时代,传统的“50%运维+50%开发”定义是否还适用。同时,强调了大数据智能化运维体系的重要性,以及对大数据全场景稳定性的追求。
这篇文章给互联网公司大数据SRE体系建设提供了宝贵的实战经验,展示了如何通过监控告警、运维规范、自动化脚本化、资源治理等措施,逐步提升大数据平台的稳定性和运维效率,同时也为未来的发展方向提供了清晰的规划。