IT运维管理监控和事态管理实践流程相关定义
1)监控目的定义
IT运维管理监控的主要目的是确保IT系统的正常运行,通过监控和分析来提前预知和解决可能出现的问题。其目标不仅是简单的指标监控,而是要解决实际的问题,提升服务质量,最终达到提高用户满意度,降低IT运维管理成本,提升IT运维管理效率等效果。基于这样的思路,可以把监控分为四类:面向故障发现、面向后端查看指标、面向根源分析、面向提前预知、面向平台展示。
表:监控目的定义示例
监控目的分类目的描述
面向故障发现这类监控主要关注系统的运行状况,包括硬件故障、软件错误、网络问题等。一旦发现任何异常,就应立即采取行动,以尽可能快地恢复正常服务。监控的核心目的是应该预警或提示应用系统、关键服务或IT组件发生了故障,以便能够快速的响应,最大程度减少故障给业务或用户带来影响。
面向后端查看指标非常类似与汽车、飞机的仪表盘,通过对关键指标的时刻监控来反映监控应用系统、关键服务或IT组件的运行情况,是否是按照设计的状态在运行,如果有异常那么需要采取控制措施。这类监控主要关注系统的性能指标,如CPU使用率、内存使用率、磁盘空间、网络带宽等。这些信息可以帮助我们理解系统的工作负载和性能瓶颈,以便优化资源配置和调整系统设计。
面向根源分析是在应用系统、IT组件已经出现了影响正常使用的情况,需要找到是哪些组件出了问题、出了什么问题,来找到根因,来消除故障。这类监控关注的是系统问题的根本原因。通过深入分析系统日志、错误报告和其他相关信息,我们可以找出问题的根源,以便针对性地解决问题,防止问题再次发生。
面向提前预知通过对于IT组件的运行指标的监控,能够预测未来系统运行的情况,提前做出干预措施,避免出现非预期的情况。比如对CPU、内存、存储等容量的规划等。这类监控使用高级的数据分析和机器学习技术,预测可能出现的问题和性能下降。这使我们可以提前采取预防措施,提升系统的稳定性和可靠性。
续表
监控目的分类目的描述
面向平台展示通过监控的方式来展示IT系统、IT组件的关联关系,以及各IT组件的运行情况,便于优化和改进IT系统和组件的运行。这类监控主要关注如何将监控数据有效地呈现给用户,包括IT人员和业务决策者。这可以帮助他们理解系统的状态,做出更好的决策。
2)监控目标定义
确定监控目标是进行有效IT监控管理的关键。监控目标将决定监控指标类型的选择,监控阈值的设定,以及应对各种情况的处理方式等一系列管理活动。以下是一些常见的监控目标:
表:监控目标的分类示例
目标分类说明
服务可用性、性能和容量管理根据服务设计阶段的信息以及服务验证和测试实践,确定监控的关键目标。这包括对服务的可用性、性能和容量的监控,以确保服务满足业务需求和用户期望。
服务级别管理设定服务级别的目标,这些目标应对服务的质量和性能进行明确规定,并通过持续的监控确保这些目标得以实现。
从保证到实用性的需求转变开始时,团队应侧重于满足最明显的功能性需求(例如用户故事中的),然后逐渐过渡到更细致的需求和组件的监控。
定义监控优先级团队应制定一个优先级降序的监控列表,从关键服务性能开始,逐渐过渡到更详细的组件。
3)事态类型定义
在IT监控管理中,监控的本质在于实时捕捉和理解被监控对象状态的变化。这种变化的程度可以用来判断被监控对象是否存在潜在的风险,这些风险可能会对IT服务的质量产生影响。
当检测到状态的各种程度的变化及其相关信息时,我们必须及时通知被监控对象的维护人员,以便他们采取适当的措施防止此类变化降低IT服务质量。这种对状态变化程度的通知的分类被称为事态分类。由于资源的限制,根据不同的事态分类,需要采取不同的应对措施。以下是一些常见的事态分类:
表:事态类型及其影响定义
事态类型健康状况对服务/用户的消极影响响应要求
信息(Informational)正常无影响无须响应
指导(Instructional)正常待定需响应(预先定义)
警告(Warning)不正常无影响/待定需响应,执行调查
异常(Exception)事件有影响需响应,事件管理
表:事态类型定义说明
事态类型说明
信息(Informational)除了记录事件以进行报告、趋势分析或潜在的取证分析和审计外,不需要其他操作
指导(Instructional)作为正常服务操作的一部分发生的事态(event),需执行预定义的人工操作
警告(Warning)已检测到不正常的活动,或者已经达到了一个阈值,需进行进一步的调查
异常(Exception)已经发生代表操作活动失败或服务水平中断的活动
鉴于IT监控所涉及的监控对象类型繁多,监控规划专家必须针对机房环境、网络、服务器、云平台、各类服务及应用系统制定不同的事态类型,为后续的事态处理奠定基础。例如,网络类事态的类型定义、网络类指导事态的定义等。参考数字化IT运维管理体系建设指南等书籍资料
页:
[1]