本研究旨在探讨一家互联网企业混合云大数据SRE(Site Reliability Engineering,网站可靠性工程)的实践历程。文章基于企业背景及所面临的挑战,深入阐述了大数据SRE体系在成长期与成熟期的构建过程,并展望了未来的发展规划,目的在于增强大数据平台的稳定性与运维效率。
企业背景与挑战: 该企业业务范围广泛,业务线覆盖国内300余座城市,月活跃用户及司机数量庞大。其大数据平台负责管理超过10PB的数据存储量和每日超过20,000个任务,分布在多个IDC和云服务平台上。大数据平台的核心任务是推动业务的数字化转型,促进企业业务的持续增长。然而,企业面临的核心挑战包括关键组件的无预警故障、监控指标的不完整性、原始的运维方式以及频繁的故障发生等问题。
大数据SRE体系建设 - 成长期: 在成长期,企业从脚本化改造起步,逐步构建自动化运维体系。重点涵盖: - 监控告警体系:构建大数据侧监控告警体系,确保基础设施问题能够通过监控告警系统实现100%的发现与预警。 - 运维规范:制定大数据基础架构变更规范,确保变更过程有法可依。 - 标准化与一致性:梳理并定义标准操作流程(SOP),以保障线上不同组件机型、参数、配置的一致性。 - 脚本化建设:将高频操作脚本化,利用ansible-playbook编排运维脚本。
大数据SRE体系建设 - 成熟期: 成熟期的建设更侧重于稳定性和成本控制,具体措施包括: - 稳定性保障:针对大数据领域场景的多样性(在线/实时/离线)和稳定性保障的特殊性,制定故障管理规范,确保故障复盘率和整改完成率达到100%。 - 监控告警能力:强化监控告警体系,实现核心业务接入率提升至100%,线上问题几乎100%由监控告警系统提前发现。 - 资源治理:进行容量规划和预警,建立公司级核心链路和部门级资源保障能力。 - 平台/引擎治理:修复高风险bug,治理不合理和不安全参数,增强平台能力。 - 保障规范:建立研发和发布规范,故障管理规范,以及平台能力增强措施。
后续规划: 文章最后提出了后续规划,包括: - 场景支撑:持续强化大数据场景的支撑能力。 - 稳定性保障:进一步提升大数据稳定性和安全性。 - 智能运维体系:构建大数据智能化运维体系1.0,实现大数据全场景稳定性(在线/实时/离线)。 - 成本管理:优化成本管理,提高资源利用效率。
思考与总结: 文章最后提出了对大数据SRE团队职责边界的新思考,探讨在全面上云的新时代背景下,传统的“50%运维+50%开发”定义是否仍然适用于大数据SRE。同时,强调了大数据智能化运维体系的重要性,以及对大数据全场景稳定性的追求。
本文为互联网企业大数据SRE体系建设提供了宝贵的实践案例,展示了如何通过监控告警、运维规范、自动化脚本化、资源治理等措施,逐步提升大数据平台的稳定性和运维效率,并为未来的发展方向提供了明确的规划。
|