这篇文章深入浅出地讲述了中国电信在“IT上云三年计划”这个大背景下,如何应对运维上的各种挑战,并且打造了一个超级给力的SRE(网站可靠性工程)运维体系。
2020年7月,上云计划正式启动,运维团队遇到了不少头疼的问题:PaaS层用上了自主研发的组件,IaaS层变成了天翼混合云,维护起来变得超级复杂;分布式架构让系统节点和微服务数量暴涨,监控起来简直要命;监控对象之间的关系乱成一团,传统的维护方式根本搞不定;运维团队分散各地,缺乏统一的工具和流程管理,监督不到位,规范也不完善。
为了克服这些挑战,中国电信打造了一个稳定的运营保障体系,目标是“故障次数和时长双压降”,依靠四大运营驱动力,专注于事前预防、事中响应、事后改进三个阶段,形成了规范、动作、能力三统一的运营体系。具体的做法包括:组建了SRE运营团队,由运营管理、一线运维、二线专家团队组成;使用了数字化工具,比如云眼、凤凰、ITSM系统;加强了运维流程管控,包括隐患排查、应急预案、风险操作、故障管控流程;实施了检查奖罚并举,通过健康评估、积分驱动、检查考试等手段;完善了IT运维规范,制定了统一规范并强化执行。
在团队组建方面,明确了各团队的职责,比如一线值班台负责告警响应与调度,二线专家负责故障定责、复盘等,运营管理团队负责稳定运营与故障压降。同时,还营造了运维文化,举办了运维吐槽大会收集建议,推出了“小羲说运维”分享经验,构建了故障目标认领与零故障激励体系,鼓励大家减少故障。在摸清家底方面,通过CMDB建立了精准纳管三层资源数据,打破了数据孤岛,推动了资产信息的准确性,实现了全生命周期IT资源管理。
在集中调度方面,实现了全层级监控、告警标准化与集中调度闭环管控,规定了值班要求确保7*24小时监控。集约流程管控包括风险操作流程、风险隐患与应急预案流程、故障管理流程、强化故障复盘管控。风险操作流程严格管控执行,风险隐患与应急预案流程实现动态梳理与集中管理,故障管理流程确保故障登记、复盘、反馈、验收闭环,故障复盘遵循特定原则与环节。
智能运维工具的构建包括三屏联动可观测平台、基于RPA技术的数字哨兵、移动端半自动化故障自愈工具、AI场景应用、智能告警关联分析。这些工具提升了监控、故障自愈与告警分析能力。在应急体系建设方面,构建了“四级应急体系”,包括分布式缓存全阻、第三方支付通道故障、K8S集群故障、生产机房故障的应对措施,目标是30分钟内业务恢复。同时,构建了SRE系统运营能力评估体系,覆盖多能力域,通过分数驱动定级奖惩,动态调整评估细则,实时更新分值,借助工具支持管控。加强了IT运维规范沉淀和执行,确立了规范目标与成效,通过考试、宣贯等手段强化规范意识,迭代更新规范内容,形成了SRE运维体系的“系统纳管五步十流程”,涵盖了摸清家底、集中调度、集约管控、能力提升、手段管控等环节,全面提升运维效率与质量,保障系统稳定运行。