这家互联网巨头是怎么在混合云大数据SRE上大显身手的！

orange78

这篇文章，咱们聊聊一家互联网巨头的混合云大数据SRE（网站可靠性工程）的实战经验。从头到尾，咱们会看到大数据SRE体系是怎么在成长期和成熟期一步步搭建起来的，还有未来的打算，目标就是让大数据平台更稳当，运维更给力。

先说背景和挑战：

这家公司业务多得是，覆盖了国内300多个城市，用户和司机数量庞大。大数据平台得扛起10PB+的存储量和20K+的日均任务数，分布在好几个IDC和云服务上。大数据的使命就是推动业务数字化，让公司业绩蹭蹭往上涨。不过呢，挑战也不少，比如核心组件会悄无声息地挂掉、监控指标不全、运维方式还停留在**时代、故障频发等等。

大数据SRE体系建设 - 成长期：

成长期的时候，公司从脚本化改造开始，慢慢搭起了自动化运维体系。重点包括：

- 监控告警体系：建起了大数据侧的监控告警体系，基础设施的问题100%能通过监控告警系统发现并预警。

- 运维规范：制定了大数据基础架构变更规范，让变更操作有法可依。

- 标准化和一致性：梳理定义了SOP，确保线上不同组件机型、参数、配置都一个样。

- 脚本化建设：把高频操作脚本化改造了，用ansible-playbook编排运维脚本。

大数据SRE体系建设 - 成熟期：

到了成熟期，建设更看重稳定性和成本控制，具体措施有：

- 稳定性保障：针对大数据领域的多样性（在线/实时/离线）和稳定性保障的特殊性，制定了故障管理规范，确保故障复盘率和整改完成率100%。

- 监控告警能力：加强了监控告警体系，核心业务接入率提升至100%，线上问题几乎100%能被监控告警提前发现。

- 资源治理：做了容量规划和预警，建立了公司级核心链路和部门级资源保障能力。

- 平台/引擎治理：对高风险bug进行了修复，治理了不合理和不安全参数，让平台能力更强。

- 保障规范：建立了研发和发布规范，故障管理规范，以及平台能力增强措施。

后续规划，包括：

- 场景支撑：继续加强大数据场景的支撑能力。

- 稳定性保障：进一步提升大数据稳定性和安全性。

- 智能运维体系：构建大数据智能化运维体系1.0，实现大数据全场景稳定性（在线/实时/离线）。

- 成本管理：优化成本管理，提高资源利用效率。

思考与总结：

对大数据SRE团队职责边界的思考：探讨在全面上云时代，传统的“50%运维+50%开发”定义是否还适用。同时，强调了大数据智能化运维体系的重要性，以及对大数据全场景稳定性的追求。

这篇文章给互联网公司大数据SRE体系建设提供了宝贵的实战经验，展示了如何通过监控告警、运维规范、自动化脚本化、资源治理等措施，逐步提升大数据平台的稳定性和运维效率，同时也为未来的发展方向提供了清晰的规划。

IT运维管理：ITIL先锋论坛—某互联网公司混合云大数据SRE实践经验.pdf

上一篇：IT运维管理现状流程架构问题分析（2）
下一篇：为什么要做IT运维管理流程化架构？

这家互联网巨头是怎么在混合云大数据SRE上大显身手的！

评论

浏览过的版块