×

微信扫一扫,快捷登录!

标签: 暂无标签



1)监控目的定义


IT运维管理监控的主要目的是确保IT系统的正常运行,通过监控和分析来提前预知和解决可能出现的问题。其目标不仅是简单的指标监控,而是要解决实际的问题,提升服务质量,最终达到提高用户满意度,降低IT运维管理成本,提升IT运维管理效率等效果。基于这样的思路,可以把监控分为四类:面向故障发现、面向后端查看指标、面向根源分析、面向提前预知、面向平台展示。


表:监控目的定义示例

监控目的分类
目的描述
面向故障发现
这类监控主要关注系统的运行状况,包括硬件故障、软件错误、网络问题等。一旦发现任何异常,就应立即采取行动,以尽可能快地恢复正常服务。
监控的核心目的是应该预警或提示应用系统、关键服务或IT组件发生了故障,以便能够快速的响应,最大程度减少故障给业务或用户带来影响。
面向后端查看指标
非常类似与汽车、飞机的仪表盘,通过对关键指标的时刻监控来反映监控应用系统、关键服务或IT组件的运行情况,是否是按照设计的状态在运行,如果有异常那么需要采取控制措施。
这类监控主要关注系统的性能指标,如CPU使用率、内存使用率、磁盘空间、网络带宽等。这些信息可以帮助我们理解系统的工作负载和性能瓶颈,以便优化资源配置和调整系统设计。
面向根源分析
是在应用系统、IT组件已经出现了影响正常使用的情况,需要找到是哪些组件出了问题、出了什么问题,来找到根因,来消除故障。
这类监控关注的是系统问题的根本原因。通过深入分析系统日志、错误报告和其他相关信息,我们可以找出问题的根源,以便针对性地解决问题,防止问题再次发生。
面向提前预知
通过对于IT组件的运行指标的监控,能够预测未来系统运行的情况,提前做出干预措施,避免出现非预期的情况。比如对CPU、内存、存储等容量的规划等。
这类监控使用高级的数据分析和机器学习技术,预测可能出现的问题和性能下降。这使我们可以提前采取预防措施,提升系统的稳定性和可靠性。


续表

监控目的分类
目的描述
面向平台展示
通过监控的方式来展示IT系统、IT组件的关联关系,以及各IT组件的运行情况,便于优化和改进IT系统和组件的运行。
这类监控主要关注如何将监控数据有效地呈现给用户,包括IT人员和业务决策者。这可以帮助他们理解系统的状态,做出更好的决策。

粘贴上传202501101948546230..png

2)监控目标定义

确定监控目标是进行有效IT监控管理的关键。监控目标将决定监控指标类型的选择,监控阈值的设定,以及应对各种情况的处理方式等一系列管理活动。以下是一些常见的监控目标:

表:监控目标的分类示例

目标分类
说明
服务可用性、性能和容量管理
根据服务设计阶段的信息以及服务验证和测试实践,确定监控的关键目标。这包括对服务的可用性、性能和容量的监控,以确保服务满足业务需求和用户期望。
服务级别管理
设定服务级别的目标,这些目标应对服务的质量和性能进行明确规定,并通过持续的监控确保这些目标得以实现。
从保证到实用性的需求转变
开始时,团队应侧重于满足最明显的功能性需求(例如用户故事中的),然后逐渐过渡到更细致的需求和组件的监控。
定义监控优先级
团队应制定一个优先级降序的监控列表,从关键服务性能开始,逐渐过渡到更详细的组件。


3)事态类型定义

在IT监控管理中,监控的本质在于实时捕捉和理解被监控对象状态的变化。这种变化的程度可以用来判断被监控对象是否存在潜在的风险,这些风险可能会对IT服务的质量产生影响。

当检测到状态的各种程度的变化及其相关信息时,我们必须及时通知被监控对象的维护人员,以便他们采取适当的措施防止此类变化降低IT服务质量。这种对状态变化程度的通知的分类被称为事态分类。由于资源的限制,根据不同的事态分类,需要采取不同的应对措施。以下是一些常见的事态分类:

表:事态类型及其影响定义

事态类型
健康状况
对服务/用户的消极影响
响应要求
信息
(Informational)
正常
无影响
无须响应
指导
(Instructional)
正常
待定
需响应(预先定义)
警告(Warning)
不正常
无影响/待定
需响应,执行调查
异常(Exception)
事件
有影响
需响应,事件管理





表:事态类型定义说明

事态类型
说明
信息
(Informational)
除了记录事件以进行报告、趋势分析或潜在的取证分析和审计外,不需要其他操作
指导
(Instructional)
作为正常服务操作的一部分发生的事态(event),需执行预定义的人工操作
警告(Warning)
已检测到不正常的活动,或者已经达到了一个阈值,需进行进一步的调查
异常(Exception)
已经发生代表操作活动失败或服务水平中断的活动



鉴于IT监控所涉及的监控对象类型繁多,监控规划专家必须针对机房环境、网络、服务器、云平台、各类服务及应用系统制定不同的事态类型,为后续的事态处理奠定基础。例如,网络类事态的类型定义、网络类指导事态的定义等。参考数字化IT运维管理体系建设指南等书籍资料





上一篇:IT运维监控和事态管理流程概要设计和详细设计
下一篇:IT运维管理监控和事态管理实践流程相关定义-监控对象的梳理及相关定义
orange78

写了 180 篇文章,拥有财富 961,被 0 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by IT 运维管理
返回顶部