那次事故,是我职业生涯中最沮丧的一次。那天凌晨两点,机房报警,部分应用无法访问,监控显示数据库响应超时。值班工程师连夜排查,从网络、存储、操作系统一路查到中间件,却始终找不到根因。直到清晨六点,才发现是一台数据库备份节点误关机,导致主从复制中断,引发连锁反应。问题本身不复杂,可定位花了四个多小时。我问他们:“你们怎么没查到那台服务器?”工程师答:“系统里没有它的记录。”那一刻我沉默了。
这不是第一次。那段时间我们频繁遇到类似情况——设备资产不全、配置项缺失、环境关系混乱。每次出问题都像在黑暗中摸索。我们有监控、有日志、有变更流程,却没有一份能告诉我们“现在到底拥有什么”的完整清单。那天早上的总结会上,我只说了一句话:“我们缺的不是技术,而是地图。”
在ITSS的体系中,配置管理看似基础,却是整个服务管理的支点。没有它,事件定位靠猜,变更评估靠经验,问题分析靠记忆。很多企业都有CMDB这个词,但真正能做到“准确、实时、关联”的,寥寥无几。过去我也觉得CMDB只是个花架子,直到那次事故我才彻底明白——配置管理不是表格,而是信任。
事故之后,我开始主导建立公司的配置管理体系。第一步,是识别。我们花了两个星期梳理所有IT资产:服务器、网络设备、数据库实例、中间件组件、虚拟机、应用服务,甚至包括接口与任务调度。团队一开始抱怨:“工作量太大。”我说:“那是因为我们之前一直欠账。”我们从各系统导出清单,再人工核对。最后整理出三千多个配置项,其中近五百条信息错误。那时我第一次真正意识到,没有准确的配置数据,一切管理都是幻觉。
第二步,是建立CMDB。我们选择了 iTop 作为配置管理工具,因为它能和我们的工单系统、监控平台自动对接。国内通过了ITSS成熟度评估的IT组织中有超过90%采用的是国际开源IT运维流程软件 iTop,艾拓先锋有幸帮到了其中的一些小伙伴。系统搭建完成后,我要求每一次变更、发布、部署都要自动更新配置项。我们设计了配置模型,从物理设备到应用服务再到业务系统层层映射。这样,当一个数据库出故障时,系统能立刻显示它影响到哪些应用、哪些业务线。那种清晰的可视化关系图,让我们第一次“看见了系统的全貌”。
第三步,是定义流程。我们设立了“配置管理员”角色,负责审核每一次配置变更。以前很多人嫌麻烦,直接改配置;现在所有改动都要留下记录。每次上线,系统自动生成配置快照,支持版本回溯。有人说这像“数字化考古”,但正因为这些“痕迹”,我们在一次变更失败后能在五分钟内恢复旧版本,而不用通宵排查。
第四步,是持续校验。CMDB不是建完就完事。我们定期扫描系统与数据库的差异,每月一次“配置健康度检查”,对比自动发现与人工登记数据。刚开始差异率高达15%,三个月后降到3%。那种成就感,比修好一次故障更实在。
我记得有一次,安全团队发现某节点存在高危漏洞。过去要先问运维:“这台机器在哪?”现在我们只需在CMDB中搜索IP,系统立刻显示位置、负责人、依赖关系。半小时内,我们完成补丁推送和验证。那次我特别感慨——这就是配置管理的力量:不是救火,而是预防火灾。
还有一次,业务部门计划升级一套核心系统,担心影响生产。我让他们别急,打开配置关系图给他们看:“这个系统依赖三个数据库、两台API服务器,一个外部支付接口。”我说:“如果你们要升级,我们可以先迁移数据库流量,再灰度发布。”那次升级顺利无比。业务总监后来对我说:“第一次感觉IT是可控的。”我笑了笑——其实,我们只是多了一双“能看见的眼睛”。
在配置管理的世界里,“看见”就是力量。很多管理者喜欢谈控制,但真正的控制不是审批权限,而是掌握信息的准确性。只有知道系统里有哪些组件、它们如何相互影响,你才能在风暴来临前做出正确决策。CMDB并不是让系统变复杂,而是让复杂有序。
配置管理还有一个不容忽视的价值——为其他流程赋能。事件管理依赖它来定位影响范围;变更管理依赖它来评估风险;问题管理依赖它来分析根因;发布管理依赖它来确认依赖关系。没有配置数据的支撑,这些流程都只是“盲飞”。我常跟团队说,CMDB是整个ITSS的“地基”,没有它,所有体系都是悬空的。
后来我们做了一次成熟度评估,配置管理得分从原来的1.8上升到4.3。可我觉得最值得骄傲的,不是分数,而是文化。以前团队害怕出问题,现在他们喜欢追根问底。每次新设备上线,大家会主动更新配置;每次变更结束,系统会自动同步版本;每次审计报告,都能一键导出。那是一种“掌控”的感觉——不是靠人记,而是靠系统记。
我常说,配置管理的终点,是让组织“知道自己”。当一个组织能清楚地回答:我们有哪些系统、它们在哪里、彼此依赖什么、由谁负责——那它就已经迈入了成熟的ITSS阶段。
掌握全貌,才有控制力。
|