×

微信扫一扫,快捷登录!

标签: 暂无标签

粘贴上传202501111541166564..png






本研究聚焦于智能运维领域,深入探讨了相关算法及其应用场景,并基于COPS2020在深圳站的演讲内容进行了整理。报告从AIOps的背景、现状、研究工作及未来展望三个维度,详细阐述了智能运维在算法研究与场景实践中的应用与进展。

AIOps背景与现状:
报告首先概述了IT运维的当前状况,涉及运维人员与IT设备及数据比例的演变,从过去的1:100转变为现今及未来的1:100n,系统架构的复杂性增加,排障难度随之上升。基础架构的云化、应用的微服务化以及双态数据中心(传统架构与互联网架构并存)的出现,对企业排障时效性提出了更高要求。智能运维旨在通过自动化与智能化手段,提高运维效率并降低运维成本。

智能运维的核心要素:
报告指出,智能运维的核心要素涵盖算法设计能力、运维场景理解能力以及平台工程化能力。算法仅为手段,而运维效率的提升才是终极目标。处理大规模运维数据需要高效稳定的数据平台,数据平台与算法的高效融合是实现智能运维的关键。

研究工作:
报告详细介绍了三项研究工作,包括日志/告警聚类、日志/告警场景挖掘以及知识图谱与问答系统。

1. 日志/告警聚类:
- 挑战:面临海量日志规模、长日志/告警、模板多样性、数据复杂性、中英文混合以及难以确定的分隔符等问题。
- 多层次聚类方法:涉及粗粒度解析、细粒度解析、相似性度量。ML-parser三层日志聚类方法通过不同层次的解析与度量,提升了聚类的效率与准确性。
- 实验:在Hadoop和Spark日志上进行实验,ML-parser模板的信息损失低于Drain和Spell,99%的日志在第一层被聚合,效率与Drain、Spell相当。
- 利用实体识别提升准确性:通过正则表达式、NLP中的命名实体识别方法、基于变量的字符相似性进行识别,进一步提升聚类效果。
2. 日志/告警场景挖掘:
- 挑战:存在大量告警类型、偶发告警、搜索空间巨大、故障持续时间长等问题。
- 基于频繁模式的场景挖掘:通过滑动窗口、FP-growth算法、最大项集方法挖掘频繁模式,但无法挖掘偶发场景,参数设定困难。
- 基于模板相关性的场景挖掘:通过时间序列相似性度量方法、社团挖掘算法挖掘场景,但受限于场景出现次数、告警间隔时间。
- 基于参数的场景挖掘:同一故障中的不同告警可能共享某些参数取值,通过参数共享关系挖掘模式,不受场景出现次数、告警间隔时间的限制。
3. 知识图谱与问答系统:
- 知识图谱:近年来在多个领域发挥重要作用,包括通用知识图谱和领域知识图谱。知识图谱的应用包括语义搜索和智能问答。
- 运维知识图谱:涵盖应用/服务调用关系、硬件连接关系、告警流水号、告警名称、告警级别、IP地址、产生原因、问题分类、解决方案等。
- 实体抽取:通过短句切割长句、匹配/添加正式词、添加维基百科等知识,从CMDB中获取种子,最终结果包括数十万实体,融合了软件、服务、中间件、主机、故障等类型。
- 面向运维的问答系统:基于自然语言的问题系统,具有高易用性,便于运维人员进行个性化数据探索。核心技术包括词法分析、句法分析、SQL语句生成等。系统架构包括前端和后端,支持多种数据源。算法效果包括为运维人员提供更为灵活的数据探索能力,使用自然语言查询,无需编写SQL,融合多源数据。

未来工作:
报告最后提出了未来工作的方向,强调算法在多个领域的重要性,同时指出仍存在大量问题亟待解决。随着系统日益复杂化,智能运维将发挥更加关键的作用,面临业务复杂多样、数据海量异构等挑战。

本研究为智能运维的算法与场景提供了全面的分析,展示了通过日志/告警聚类、场景挖掘、知识图谱和问答系统,如何提升运维效率,降低运维成本,并为其他企业提供了可借鉴的实践路径。







上一篇:云计算环境下自助服务与无人值守运维管理案例研究(IT运维管理)
下一篇:智能运维的发展路径与实践典范(信息技术运维管理)
slbenben

写了 1742 篇文章,拥有财富 10784,被 10 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by IT 运维管理
返回顶部