本研究旨在探讨某银行在智能运维(AIOps)领域的实践案例,该案例由国内领先的数字化时代IT服务管理交流平台ITIL先锋论坛提供。本报告从AIOps的建设背景与目标、实施策略与平台架构、实践案例分析以及未来发展趋势四个维度,深入阐述了该银行在智能运维领域的探索与经验积累。
AIOps建设背景与目标: 随着商业银行业务的数字化转型和架构的分布式转型步伐加快,商业银行的IT运维架构正逐步从传统模式向“双态”运维架构演进,兼顾“风险防控,确保安全”的“稳态”和“快速交付,提升体验”的“敏态”。这一演进反映了从“IT运维”到“IT运营”的转型需求,目标是实现系统从“存在”到“高效运行”的转变,以及管理从“有措施”到“有效果”的转变。AIOps旨在实现四个核心目标:提前发现风险、精准的运营决策、迅速解决问题以及智能化的运维管理。
实施策略与平台架构: 在AIOps实施过程中,面临的实际挑战包括数据获取困难、分析手段单一、个性化运维数据分析需求多变以及共性分析场景缺乏统筹实施等。为应对这些挑战,本报告提出了以下实施策略: 1. 数据问题解决:构建运维数据集市,从数据汇聚、建模加工、指标体系三个层面构建规范化、标准化的运维数据集市,以促进运维数据的高效共享与应用。 2. 分析效率提升:建设分析引擎,结合智能引擎、平台思维、有效管理,实现运维分析的升级换代,丰富运维分析手段,提高运维分析效率。 3. 场景应用促进:构建场景生态,强化主动运维、数据运营理念,针对运维领域的痛点、难点、个性化问题开展场景化分析应用建设,以提升整体运维能力。
实践案例分析: 本报告分享了若干具体的AIOps实践案例,具体包括: 1. 潜在风险挖掘:通过对海量历史运维数据的建模和分析,揭示系统运行规律,提前预警潜在运行风险,形成风险分析-发现-跟踪-处置-优化的全流程可追溯,从而全面提升系统运行稳定性。 2. 全景智能洞察:针对海量告警、指标监控人工分析工作量大、数据割裂不便排查等问题,通过构建系统运行健康度实时评价体系、提升海量资源指标的算法分析效率、建设全方位立体可视化全景洞察视图,实现对系统运行情况的全景智能洞察,提高分析决策效率。 3. 智能根因定位:综合考虑指标、告警、关联等运维信息,构建自下而上的运行健康度实时评价体系,融合AI算法与专家经验的智能诊断工作台,在故障出现异常时快速推荐可能的根因。 4. 系统运营画像:参考DIKW金字塔模型构建“数据-特征-指标-标签”的应用系统画像框架,通过建立“运行、运维、运营”三运指标体系,并在此基础上对指标进行横向对比、纵向分析,抽取“标签化”知识,更好地辅助运营决策。
未来发展趋势: 本报告展望了AIOps的未来发展方向,具体包括: 1. 从特定场景利用机器学习算法向平台化、体系化发展:通过运维数据平台、运维分析平台提供的数据服务能力、算法服务能力及场景建设能力,提供体系化智能运维服务。 2. 强化智能运维的体系化建设:除注重算法效果外,人机交互、算法效果可视化、算法结果可解释性的进一步提升将更有助于运维人员理解AI的决策过程。 3. 可观测性、可解释性需求加强:在持续关注故障告警、异常检测等传统场景的同时,开始逐渐注重故障预测、风险发现等事前场景,注重提升风险的发现、溯源、管理及处置能力建设。 4. 多领域深化赋能:除了传统的质量、效率类场景,为运维管理、安全管控等领域进行赋能也是AIOps的下一个重点方向。
本研究为银行的AIOps智能运维实践提供了宝贵的实践经验,展示了如何通过构建运维数据集市、提升分析效率、促进场景应用,实现AIOps的落地和实践,提升运维管理的质量和效率,为其他金融机构提供了可借鉴的实践路径。
|