本研究旨在探讨智能运维建设路径与最佳实践,内容基于COPS2020在深圳站的演讲资料整理而成。本报告从四个维度深入剖析了智能运维在企业中的应用与实践:业务数字化进程中的运维挑战、智能运维体系的分层构建方法、智能运维场景化构建的逐步实施模式以及案例分析与价值分享。
业务数字化进程中的运维挑战: 报告首先阐述了业务数字化加速背景下,企业面临的运维挑战。以某IDC服务商机房故障为例,详细描述了电力负载过高导致的连锁反应,包括配电柜开关跳闸、生产机房停电、空调停止运行、设备宕机以及业务全网中断等事件,凸显了运维在数字化转型中的关键作用。报告进一步分析了运维的现状与未来趋势,包括分析局限性、数据治理、主动运营等方面。智能运维的核心在于提升运维数据的认知能力,据Gartner预测,至2022年,大型企业中将有50%部署AIOps平台,以推进数字化转型。
智能运维体系的分层构建方法: 报告详细介绍了擎创科技的智能运维体系架构,涵盖运营决策层、运维应用层、数据治理层三个层面。具体架构如下: - 运营决策层:涉及知识图谱、运营大屏、系统画像等。 - 运维应用层:包括异构第三方应用、告警解析中心、指标解析中心、日志解析中心、容量分析中心、事件分析、根因定位、异常检测、客量预测等。 - 数据治理层:涉及流式处理、算法处理、运维大数据处理、Data lake、APIs、Agents(指标,事件,日志)等。 擎创科技的产品组合以夏洛克AIOps智慧运营平台为核心,该平台以全局视角解读IT运维,整合告警事件、性能指标、日志和容量等多维数据,在AI算法平台的支撑下实现精准告警、异常检测、根因定位和容量分析等场景,助力企业数字化业务高效、稳定和顺畅运行。同时,通过数据价值的提炼分析优化运营决策,彰显运维对业务的深远影响。
智能运维场景化构建的逐步实施模式: 报告提出了智能运维建设的原则与路径,包括三个基本原则和六步实施策略: - 三个基本原则:立足于自身运维需求、补充监控手段的不足、增强实时性数据处理能力。 - 六步实施策略: 1. 集中监控智能化改造 2. 指标监控智能化改造 3. 日志智能异常检测 4. 根因分析和定位 5. 智能故障排查 6. 故障自愈
案例分析与价值分享: 报告通过具体案例展示了智能运维的价值,包括: - 异常发现:利用智能化手段快速识别异常情况。 - 根因定位:精确确定问题的根本原因,缩短排查时间。 - 运营分析:基于数据分析进行运营分析,优化决策过程。 - 持续治理:持续改善数据质量,优化运维流程。
具体案例包括: - 集中监控的智能化:帮助客户更迅速地发现异常情况。 - 更有效的诊断问题根因:通过智能化手段迅速定位问题根本原因。 - 更业务导向的运营分析和决策:基于数据进行业务导向的运营分析和决策。 - 更持续有力的提升数据质量:通过持续治理提升数据质量,优化运维流程。
本研究全面分析了智能运维的建设路径与最佳实践,展示了通过分层构建智能运维体系、逐步实施场景化构建模式,如何提升运维效率,降低运维成本,并为其他企业提供可借鉴的实践路径。
|