《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券
为了实现“质量可靠、效率提升”的运维核心目标,数智化运维服务平台需要具备更加实时的感知能力和智能的洞察能力,以更快发现系统运行风险;需要具备更加高效的执行与调度能力,以更快进行应急响应与服务交付。
建设内容具体来说包含以下几方面:
1)全面梳理指标资产,建立一套横纵结合、多层次、多维度的运维指标体系。
汇总分散在各监控系统的指标数据,形成集管理体系、评价体系、标准体系、工具体系于一体的、具有组织特色的运维指标体系,更准确地量化展现IT业务价值,为数据分析、智能算法等提供基础支撑。
2)建设运维数据湖,实现对应用日志、监控指标等海量运维数据的采集、解析、存储、管理、应用的一站式全生命周期管理。
运维数据湖建设强调整合、治理、共享,通过运维数据的汇集、规范、连接、消费,形成完整的运维数据资产管理体系。首先,数据湖采用分布式、高可用架构,实现对运维数据的高效实时采集和统一管理,打破各个孤立运维工具中的数据孤岛;其次,数据湖基于大吞吐量的流式数据处理能力,封装各类计算逻辑,使得下游消费方可以按照场景需求自助分析各类数据,快速敏捷地创建面向特定场景的数据应用,实现对数据的全面综合分析;再次,数据湖监控运维数据全生命周期各环节的数据质量,将数据治理融合到大数据平台的各环节中,降低治理成本。
3)以机器学习算法为核心提供强大的异常发现能力和分析决策能力。
在故障发现方面,一是通过挖掘指标和日志历史数据中的隐含模式,识别业务指标趋势或日志模式的异常变化,及早发现风险,弥补现有业务监控中难以通过规则事先设置监控的问题;二是创新引入基于模糊测度和Choquet积分的非线性回归模型,实现关键业务系统核心指标的非线性影响权重的量化分析,建立形成可观测、可度量的运维分析模型,并实时计算系统健康度等综合指标,在此基础上实现故障检测和提前预警。在故障定位方面,一是运用多维异常定位算法,在业务系统发生故障的异常时间段从大量交易明细的不同属性维度组合中快速完成统计分析,确定疑似故障根因维度组合。二是运用基于知识图谱的根因定位算法,推理得到可疑程度最高的根因节点和故障传播路径,帮助运维人员从告警风暴和复杂链路中快速定位故障根因。
4)在数字化转型的背景下,搭建敏捷高效的全新工作平台-数字员工。
数字员工基于RPA、人工智能、机器学习等金融科技,实现自动化处理大量重复性、流程性的工作任务。通过与传统的自动化运维相结合,让员工从疲于应对的繁琐、低价值劳动中释放,提升日常运维操作及故障处置的效率,降低人工操作风险,进而从事更高价值、具有创造力的工作,提高企业竞争力。
技术创新点
1)以应用为中心,建立横纵结合、多层次、多维度的运维指标体系
平台遵循系统性、全面性、结构性、差异性、重要性五大原则,针对各个业务领域、场景或过程的特点,结合组织战略目标、指标体系需求、行业最佳实践与专业知识、数据资源状况等,采用自上而下(从业务需求、模型等出发)与自下而上(从现有业务系统能提供的数据指标出发)相结合的方法,明确指标之间的层级关系、因果关系,明确各指标、维度的定义和计量方式,确定各指标的基准和阈值、统计时间周期等,形成一套框架合理、逻辑清晰、指标定义准确、维度丰富、评价标准科学的指标体系。
2)基于实时流数据处理技术,构建大吞吐量的数据分析能力,提供便捷的数据开发能力
a)高效数据处理机制:基于Flink的实时数据处理平台吞吐效率比原有系统提高3-5倍,能够实现10T数据级的准实时的数据采集、清洗和计算。
b)低代码和统一数据服务:通过低代码、可视化配置的方式完成数据开发、运维和管理,实现一站式、图形化工作流,降低使用及维护成本。下游智能运维算法可以按需消费,快速敏捷地创建面向特定场景的数据应用,充分释放数据价值。
3)利用机器学习算法,挖掘指标和日志历史数据中的隐含模式,并通过算法模型实现实时检测,及时对数据异常进行告警
a)单指标异常检测:通过对业务性能黄金指标数据,如交易量、响应时间、错误数等具备时间间隔固定、有时序规律或周期性特点,可反映业务系统健康度的指标数据,进行异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现与恢复时间。
b)日志异常检测:基于日志聚类算法,通过识别日志中的变量,对日志做实时聚类形成日志模式,并与正常时段日志模式对比,出现异常时发出告警来辅助运维人员快速定位异常,弥补现有业务监控中难以通过规则事先设置监控的问题。实际运行中异常检测准确率达80%以上。
4)基于数字孪生方法论和多层次指标体系,构建系统非线性影响权重的量化模型,获得系统全维观测、健康度实时分析和故障预警能力
创新引入基于模糊测度和Choquet积分的非线性回归模型,建立度量核心系统内部各种关键指标对运行状态的非线性影响权重的量化分析方法,构建多层次指标体系,准确、及时地把握系统运行动态变化的高维复杂状态空间,为系统健康度评估、预测/诊断系统故障提供系统整体层面的量化模型。
5)引入和实现多种智能化故障定位算法,辅助运维管理员在故障发生时快速定位可能的故障发生点,缩短排障及系统恢复时间
a)基于异常程度衡量方法和蒙特卡洛树搜索的多重剪枝等关键技术,在业务系统发生故障的异常时间段从大量交易明细的不同属性维度组合中,迅速完成统计分析,确定候选根因集,为一线运维管理员完成故障诊断提供有力的的辅助决策手段。故障定位准确率达到80%以上。
b)采用高效的基于微服务依赖关系的算法进行根因定位,动态地构建服务调用图,沿着异常服务调用遍历图来分析可能的异常传播链,并采用高效的剪枝策略来消除异常传播链分析中不相关的服务调用,从而提升根因定位准确性及效率。
6)运用RPA+AI技术实现业务操作、运维操作的自动化、标准化,减少人工操作风险,大幅提升工作效能
融合多种技术,扩展能力边界,构建智能化、自动化的流程作业平台。融合IDP(智能文档处理)、OCR(图像识别)、ASR(自动语音识别技术)、ML(机器学习)、流程与执行的智能分析、低代码等技术的智能自动化平台,推动AI与RPA相结合,充当RPA的大脑,扩展RPA能力边界,实现智能人机协同与组织的高效能管理,使得其功能更加完善,应用场景更加广泛。比如通过RPA与图像识别、生物特征识别(人脸、语音)等AI技术的结合,实现开户流程的智能审核,将通过智能审核后的流程再提交给审核人员进行人工复核,审核效率将得到大幅度提升,显著降低人为操作风险。