本研究旨在探讨某运营商业务支撑系统(BSS)中AIOps(Artificial Intelligence for IT Operations,即智能运维)的实施案例,该案例由国内领先的数字化时代IT服务管理交流平台ITIL先锋论坛提供。本报告从四个方面深入剖析了该运营商在AIOps领域的实践与经验:运营商IT系统及运维发展概况、AIOps的实施与应用实践、AIOps推广策略与运维平台建设经验分享,以及对未来运维趋势的展望。
IT系统及运维发展概况: 报告首先对运营商的IT系统进行了全面介绍,涵盖了管理支撑系统(MSS)、网络管理支撑系统(OSS)、业务支撑系统(BSS)以及业务系统与产品(SSS)。特别强调了B域业务支撑系统的规模庞大、架构复杂且正处于演进阶段,而M域管理支撑系统虽然规模较小,但数量众多且技术栈复杂。这些系统的演进显著推动了运维水平的提升,并为运维实践提供了理想的试验环境。
AIOps的实施与应用实践: 报告详细阐述了AIOps的实施与应用实践,内容包括自主自愈无人值守、运维事件自动化处理、运维操作平台化、运维平台的编排能力、部分运维场景的智能化、运维平台的一体化、复杂运维场景的智能化、关键场景的自动化和智能化技术应用等。具体措施包括: - 建立和管理运维流程与标准:实现流程化、标准化。 - 工具的标准化管理:实现平台化、自动化。 - AIOps场景的预研:针对异常检测、根因分析、知识图谱等经典场景进行预研,优先解决运维中的痛点问题。 - 自动驾驶模型的对标优化:将水平从L1~L3提升至平均L3以上,实现多场景全流程的串联。 - 扩展生产对象与丰富场景:通过扩充对象、场景、联动,构建故障诊断、知识管理等高阶场景。
AIOps推广策略与运维平台建设经验分享: 报告分享了AIOps推广策略与运维平台建设的经验,包括: - 明确推广目标与计划:结合场景特点、现实痛点、推广目标与落地时间。 - 构建推广效果评估指标:建立AIOps场景指标体系与月报分析。 - 优化运维工作量结构:转变维护人员思维、引导与压降。 - 建立团队分工协同机制:明确角色分工、周报月会、双周落地复盘与持续迭代。 - 专项分析推广效果的重点场景:针对异常检测、故障诊断、运维机器人等重点场景进行专题分析。 - 管控运维后台登录账号:限制后台访问、鼓励智能化自动化、定期统计。
对未来运维趋势的展望: 报告展望了未来运维的发展方向,包括: - 持续演进的数智化运维平台:构建端到端可观测中心、统一入口、流程平台、日志平台、数据库管理平台、自动化测试平台。 - 规划思路:明确分工界限,合并同质能力。 - 探索尝试应用各种AIOps场景:不断探索尝试应用各种AIOps场景,寻找效果显著的AIOps场景,期待交流新技术、新理念在运维中的应用,例如元宇宙、ChatGPT。
AIOps应用成效: 报告展示了AIOps应用的成效,包括: - 完成B域、M域核心系统的接入:涵盖性能、业务、告警、日志等X大类XXX种指标项,管理资源XXX多项,日处理指标数据XXX条。形成故障自愈预案XXX个。 - 故障诊断准确率:达到XX%。 - 故障诊断运维成本降低:达到XX%。 - 故障处理效能提升:约XX%。 - 智能机器人工单推荐能力:智能运维机器人具备智能修复与智能问答能力。 - 图谱知识管理:实现文档、数据库、申告单等不同类型数据的自动学习与图谱知识推理。 - 降本增效:问答、推荐使用频率X次+/月,减少X万张事件单/年,节约人力X万元/年;操作执行X万次以上,折算数据修改单X万张,每年节约人力X万元。 - 增效:以某千万用户级别地市为例,该地市每月XXX多张IT投诉工单的平均处理时长缩短了XX左右,显著提升了客户满意度。
本研究为运营商的AIOps智能运维实践提供了宝贵的实践经验,展示了如何通过自主自愈无人值守、运维事件自动化、运维操作平台化、运维平台具备编排能力、部分运维场景智能化等措施,实现AIOps的落地和应用,提升运维管理的质量和效率,为其他运营商提供了可借鉴的实践路径。
|