orange78 发表于 2025-12-4 22:15:07

IT运维管理用户体验平台设计故障自愈及数据治理





故障自愈
故障自愈的概念涉及通过一系列预先设定的处理策略,利用自动化脚本对监控系统或巡检过程中发现的各类事件进行及时的处理和反馈。这一过程涵盖了两种主要的处理方式:自动处理和人工干预处理。
自动处理方式指的是,当监控系统捕获到特定事件时,系统会自动触发相应的脚本程序来执行处理操作。在这种模式下,整个处理过程无需人工直接参与,实现了快速、高效的自动化故障处理。
与自动处理相对的是人工干预处理方式。在这种模式下,尽管系统能够根据策略找到相应的处理脚本,但在执行这些脚本的过程中,仍然需要人工进行操作确认、参数输入等交互工作。这种方式允许IT运维人员在关键时刻介入,确保处理的准确性和安全性。
故障自愈功能的实现,首先需要对日常的故障处理活动进行深入分析,识别出那些可以无需人为判断即可直接处理的故障类型。例如,一些常见的操作如重启服务、扩容存储空间、关闭某个接口或调整配置策略等。通过这些分析,可以形成一套专有的处理规则,并将这些规则录入到系统中,从而实现故障的自动处理功能。
每次故障自愈功能执行完毕后,系统会通过APP推送、邮件通知或系统内部消息等方式,将处理结果实时同步反馈给IT运维管理人员。这样,运维人员可以及时了解故障处理的进展和结果,确保运维工作的连续性和有效性。
通过构建统一的监控平台、智能IT运维管理平台和用户体验管理平台,以及IT运维管理指标管理体系,组织能够显著提升告警处理的能力,并减轻人员的工作压力。首先,通过集中管理和积累历史告警数据,可以清晰地区分不同类别的告警,并分析出哪些告警是不合理的,以及在故障发生时告警出现的规律性(故障场景识别)。这些分析结果为后续的故障溯源提供了坚实的基础。
利用智能分析手段,可以实时甄别出真正需要人工干预的告警部分,从而提高第一时间发现和解决问题的能力(告警的有效性),并提升IT运维管理人员的工作效率。在此过程中,还会产生大量与设备运行状况、日常IT运维管理活动、用户体验流量等相关的数据。
以全局运营的视角解读IT运维管理,整合告警时间、性能指标、日志、容量、通话录音和工单等多维数据,在AI算法平台的支持下,实现精准告警、异常检测、根因定位和容量分析等关键场景。这些功能有助于企业数字化业务的高效、稳定和顺畅运行,并能通过数据价值的提炼和分析来优化运营决策,从而彰显IT运维管理对业务的深远影响。基于上述技术发展趋势和组织的实际业务需求,IT运维管理数据挖掘平台的功能设计如下:



IT运维管理数据治理
1、IT运维管理大数据处理:确保TB乃至PB级别的多样化IT运维管理数据得到有效治理。无论是告警、指标还是日志数据,均能实现合理的分级分类管理,并根据用户需求进行数据建模,建立不同类别IT运维管理数据间的关系。
根据管理需求的不同,设置具体的持久化策略,为后续分析和管理提供坚实基础。通过实时收集与存储监测到的海量信息、状态参数、文件,全部存入数据中心,启动数据交互与挖掘。利用智能分析引擎,故障依赖、搜索等高级分析算法,结合外部应用如基础可视化展示,模拟人员角色进行有机协调协同。处理方式上,形成流程转接,使用数据中心的数据,并根据某些标准重新定义数据的排列组合顺序。
通过数据再学习、再利用,深度挖掘应用价值,进行计算判断,发送各种报警指示,形成人工语言与界面,技术上的网络拓扑图、设备、故障定位、报表等,以及模拟人工操作的行为习惯、设备性能状态、专业技术经验库来回缩应用性能,禁止断开不安全因素、链路、行为,主动还原、重启,恢复健康有序的平稳状态。
通过第三方应用接口获取第三方IT运维管理平台的数据,因此,需要海量的数据存储,采用分布式系统NoSQL技术的数据库系统,高效存储数据信息,并通过客户端实时展示与分析。并通过3D机房管理系统:统一对机房温度、湿度、UPS、空调、配电柜、泄漏检测设备、门禁、烟感、新风机等监控系统的数据进行展示。
2、流式处理服务:利用强大的流式处理引擎,实时处理各类IT运维管理数据。告警信息丰富、规则匹配或模式发现、指标聚合计算或异常检测、日志数据提炼加工或异常模式甄别,均需极高的时效性。许多处理任务的复杂性还涉及作业编排管理、资源调度控制,这些服务确保了各类智能IT运维管理分析场景能够实时运行而毫无阻滞。
3、机器学习服务:为智能IT运维管理应用场景提供算法赋能,内置多种算法模型,实现交互式算法调优调参、结果评估、模型发布和模型管理。极大方便了在不同场景下对于算法建模调参的便利度,使得没有AI经验的IT运维管理人员也可以轻松运用。参考数字化IT运维管理体系建设指南等书籍资料
页: [1]
查看完整版本: IT运维管理用户体验平台设计故障自愈及数据治理