orange78 发表于 2025-12-4 22:15:07

IT运维管理用户体验平台设计





IT运维管理用户体验平台主要面向业务系统IT运维工程师及IT运维负责人,旨在对业务系统的访问状况进行实时监控,获取用户访问产生的会话流量数据,分析业务运行压力,识别网络质量,量化访问体验,控制业务运行风险,协助用户及时发现并解决业务故障,确保业务系统的稳定运行。其功能设计详述如下:

●实时监测业务访问状态
通过部署仿真点,模拟特定区域真实用户对业务系统的访问,以实时掌握业务系统的访问状况。用户可将仿真点部署于分支机构或重点关注区域,该仿真点对业务的连通性和登录功能进行探测,探测结果反映了该区域或IP分组是否能正常访问业务系统,以及登录服务是否正常。
用户可根据需求设定仿真点对业务系统探测的频度,实现7*24H不间断的周期性模拟访问,即便在无人访问时也能发现业务问题。通过业务看板,用户可随时了解业务系统访问状态,一旦业务出现异常,系统将产生告警,并通过不同颜色表示不同告警级别,辅助工程师判断问题处理的紧急程度。
通过业务详情提供了业务的实时运行概览,可按分钟查看业务的运行快照。用户可以点击告警发生的时间点,查看对应时刻的拨测日志,进行深入分析。
●感知并量化用户访问体验
系统能够感知并量化用户对业务系统的访问体验,当用户访问业务系统出现卡慢时,表明网络质量或应用性能可能出现了异常,系统可对关键业务系统中的网络异常、应用性能异常进行及时发现,帮助IT运维管理人员提升用户对业务系统的访问体验,减少用户抱怨或投诉。
系统通过业务详情中提供了访问卡慢分析,列出了影响应用性能或网络质量的指标,系统将根据阈值判断业务系统是否存在访问卡慢的异常。当出现访问卡慢异常时,异常指标将变为橘色标识,提醒并帮助IT运维管理人员进行分析。
●业务故障智能定位
当用户反馈业务系统无法访问或访问卡慢时,IT运维管理人员需要经过复杂的分析过程,才能定位到是网络问题还是业务应用问题,同时需要协调其他部门人员协助共同解决故障。
针对以上场景,系统可以快速地分析故障严重程度和影响范围,分段定位故障原因,界定出责任人,提高故障处理效率。
当系统产生了业务告警,用户可在告警详情中看到故障的分析结果:
1、访问通断分析:
显示仿真点拨测的异常结果,可清晰定位出访问路径中哪个节点出现连通性问题,是DNS、网络、主机还是应用问题。
2、访问卡慢分析:
显示网络质量和应用性能指标,根据阈值判断,当业务出现卡慢时,可以根据阈值判断出DNS、网络还是应用哪一类的指标出现了异常。
当业务出现故障时,往往都是网络IT运维管理工程师优先排查,如果不是网络问题,再提交给应用IT运维管理,消时长处理慢。该功能满足于当遇到核心业务故障时,需要快速界定故障的异常点,迅速定位是网络还是应用问题,有助于划分责任人,提高故障的处理效率。
●业务详单分析
在详单分析中,系统需保留访问业务的源IP、源端口、异常产生时间以及相关协议的所有指标,从而使得问题能够进一步缩小范围到一个或少量几个会话。
通过详单分析定位到出问题的源IP、目的IP以及异常产生的具体时间点,要分析问题的根本原因,需要对原始数据包进行提取并进行解码分析。系统提供每条会话的pcap包下载功能,可供用户快速获取原始包做进一步分析。
当指标出现异常或在趋势图中定位到波峰和波谷时,可以下钻到异常产生或波峰波谷的时间段的详单进行进一步分析。也可根据需要切换协议、自定义时间段、过滤区域进行数据分析。
●流量精细化管理
当发生流量异常变化时需要定位故障源,或是分析一段时间内的流量构成时,用户可通过流量分析功能,分析全局或各分支机构网络质量、流速趋势,以及流量的构成汇总统计等。
在全局网络视角,通过网络质量和流量占比,支持按照区域、源IP、目的IP统计流量的TOP5及流量占比。在各分支机构视角,支持汇总统计给定时间窗口下的所有用户访问所有目的IP的流量,分别呈现总流量、上行流量、下行流量汇总值。流速趋势及流量构成分析,是通过上行流速和下行流速在一段时间内的占用趋势查看波峰波谷识别流量规律及异常大流量,并可钻取IP流量详单查询流量原始流水定位异常的流量占用。
IT运维管理工程师还可以通过流量回溯功能查看出现异常时刻的用户访问流水,清晰的了解每一条流水具体的访问来源、访问目的、访问流量以及响应时延等,有利于迅速定位问题发生原因。
当业务系统出现异常访问或者网络中出现异常流量时,希望实时监控总部或者各分支的网络质量,想要按照总部或者分支机构分析网络中的流量构成,以及找到异常时刻的具体访问详单,进一步分析和取证的场景。
·故障自愈
提供广义的脚本管理框架,实现对IT运维管理过程的各类脚本的统一管理、批量下发和执行,支持基于规则的故障自愈处理。当业务系统产生告警时自动调用自愈规则顺序执行批量动作,从而满足日常巡检、智能备份等常见IT运维管理场景。
通过自动化技术和手段,执行日常IT运维管理过程中重复性、有规律的例行工作,彻底释放IT运维管理人员的精力,减轻IT运维管理人员的工作量。

在日常故障处理工作中,若存在一定的规律性,例如重启进程、清理磁盘空间等常规操作,可借助自动化脚本的执行以降低重复性劳动的频率。
●优化业务运行环境
通过分析一段时间内的用户访问数据,提供历史回溯功能,使IT运维管理人员能够深入分析业务运行过程中的性能指标增长趋势及变化情况,包括在线用户数、并发连接数、流速等关键指标。此功能为业务运行环境的持续优化提供了坚实的数据支持,有助于提升业务系统的稳定性,降低故障发生概率,并减少因网络带宽、磁盘空间等环境因素引发的业务系统问题风险。
系统的历史回溯功能允许用户根据时间范围查看在线用户数、并发连接数、HTTP请求个数、HTTP请求时延、平均流量和流速的趋势图。
在申请业务运行环境优化扩容时,期望有充分的数据证明或数据支持的场景。
随着IT业务变得越来越复杂,随着带来的是IT基础设施和IT相关应用架构的复杂化,人工监控和管理已经无法满足技术上的需要,拥有自动化IT运维管理解决方案至关重要。当前IT相关的自动化主要是两个方向发展IT自动化IT运维管理和IT自动化作业。
IT自动化IT运维管理是面向IT运维管理阶段的IT运维管理自动化主要解决的是IT业务系统及IT基础设施的稳定性和快速恢复能力,以自动化的检查、自动化的配置、自动化备份和IT基础设施的自动化恢复为主;而IT自动化作业是与应用发布自动化为主,体现最多的就是DevOps,实现的应用系统的自动化部署、发布和上线。
本次项目中针对组织的实际IT运维管理情况来看,IT业务系统基本出于稳定维护状态,而且现场并没有大量的开发人员需要随时发布和部署应用系统,因此我们选择的是IT运维管理自动化领域,其详细功能架构如下:参考数字化IT运维管理体系建设指南等书籍资料



页: [1]
查看完整版本: IT运维管理用户体验平台设计