IT运维管理监控和事态管理实践-落地方案

orange78 发表于 2025-12-4 22:15:07

一、引言

针对A公司IT运维管理中心监控与事态管理的指导性文件，旨在确保关键基础设施及信息系统的安全稳定运行，及时识别并处理潜在风险，规范信息系统的监控管理流程。

1）流程目标
本流程旨在系统化地观察“服务及服务组件”，记录并报告识别为事态的特定状态变化。该管理文件旨在确定基础设施、服务、业务流程和信息安全事态，并对其进行优先级排序；建立对这些事态的适当响应机制，以及指示潜在故障或事件的条件。
2）适用范围
本流程适用于A公司IT运维管理中心所有组件的监控与事态管理工作，涵盖监控目标的确定、监控对象（包括机房环境、网络设备、服务器、应用系统及安全事件）的识别、监控指标的设定、告警规则的制定以及事态与告警的处理流程。
3）制定依据
鉴于每个组织面临的问题、外部环境因素、内部业务特征及人员素质的差异性，明确设计思想和原则对于确保组织架构设计的个性化和目的性至关重要。
本次组织架构设计采纳了以下设计思想：
·精细化管理，基于IT服务与职能，构建IT运维管理组织架构
精细化管理强调管理责任的落实，要求将管理责任具体化、明确化。在理解精细化管理的基础上，本次设计基于IT运维管理组织对外提供的IT服务及内部职能，进行组织架构的设计。
·现代化管理，融合国际最佳实践ITSM服务管理
借鉴国际先进的IT服务管理方法和最佳实践，是本次设计的核心思想之一。在IT运维管理组织架构设计中，融合了先进的ITSM服务管理知识和实践。
·科学化管理，借鉴国际实践SRE站点可靠性工程
SRE（站点可靠性工程）是Google提出的一种IT运维管理方法，旨在确保数字服务的可靠性、可用性和性能。SRE涵盖故障管理、系统容量规划、性能优化等，既包括日常系统维护，也涉及解决复杂系统问题。SRE通过技术和自动化手段，减少系统故障，提高服务质量，提升用户体验，降低业务损失，助力企业发展。SRE将工程师的思维和工具应用于IT运维管理，实现了开发与运维管理的无缝衔接，是现代企业IT运维管理的重要组成部分。

本次设计遵循了以下设计原则：
·科学性：充分借鉴国际先进的组织理论，运用管理学的IT组织架构设计方法论和ITSM服务管理方法论，确保设计成果的科学性与合理性。
·实用性：立足于A公司IT运维管理组织的现状，避免理想主义设计，综合考虑组织行为的效率和效果。

·前瞻性：充分考虑医保及相关行业的数字化发展趋势，依据IT行业的发展特点，预测IT运维管理中心未来可能的变化。
4）相关术语与定义
监控：通过重复观察系统、实践、流程、服务或其他实体，探测事态并确保了解其当前状态。监控方式通常包括：
·响应式监控：获取有关服务运行状态和性能的信息，使组织能够对已发生的对服务造成影响的事态做出适当的响应。
·预防式监控：基于对过去事件的模式分析，采取主动行动，以防止将来面临不利事态。
事态（Event）：对服务或其他配置项（CI）的管理具有重大意义的状态变化。事态通常通过IT服务、配置项或监控工具发出的通知来确定。
事件（Incident）：服务的非计划性中断或服务质量的下降。

服务请求（Request）：用户或用户授权代表发起的服务动作请求，该服务动作已约定为服务交付的正常部分。服务请求是用户问询的重要类型，也是用户体验的重要组成部分。通常，服务请求包括以下内容：
①　发起服务动作请求（由服务提供者或与用户一起执行）
②　信息请求
③　资源或服务访问请求
④　反馈，表扬或投诉
监控指标：为管理和改进而监控或报告的度量或计算。通常包括：
①　低级基础设施指标（主机、服务器、网络等）
②　应用程序指标（响应时间、错误率、资源使用情况等）
③　服务级别指标，包括基于基础设施、连接性、应用程序以及基于服务动作的指标（如适用）
④　第三方服务绩效指标（基于商定的服务级别）
⑤　操作、流程和价值流绩效指标
阈值：触发预定义响应的指标值。对阈值的响应可能包括：
①　创建一个告警或其他通知
②　创建一个事件③　变更先前记录的告警或通知的状态④　响应各自组件或服务
告警：通知已到达阈值、已更改某些内容或已发生故障。告警由监控工具创建和控制，并在监控和事态管理实践中进行管理。告警系统必须具备高度可靠性、灵活性，并能够通过多种媒体通知操作员，同时能够生成详细且可行的通知消息。参考数字化IT运维管理体系建设指南等书籍资料

页: [1]

IT运维流程库's Archiver

IT运维管理监控和事态管理实践-落地方案