如何构建IT监控管理体系?(一)IT监控管理流程设计
学习资料:IT运维管理社区专家讲堂直播300期视频回放如何构建IT监控管理体系?(一)IT监控管理流程设计
IT监控工具大家都不陌生,是目前做IT运维的必须工具之一,但大部分组织都遇到相当尴尬的情况:“平时不用,用时不管用”。花重金购买亦或者花很大精力把开源IT监控工具部署起来,能够获取指标、能够有告警就认为监控已经完成了。奇怪的现象出现了:
[*]真正出现故障的时候发现工程师并不用监控,还是用户报故障,工程师手动排查;
[*]监控系统有很多的告警,但也没人处理,监控系统妥妥的变成了摆设。
为什么会出现这种状况呢?其中有一个最重要的原因就是:缺少从管理的纬度来设计IT监控这项任务到底该如何做。今天我们来解读一下ITIL4的“监控和事态管理实践”是如何从管理的视角来管理IT监控体系?只有在管理上想明白了IT监控该如何做,那么IT监控的价值才能真正的发挥出来。
ITIL4监控和事态管理实践在讲什么?
该实践的核心假设是:1)监控的本质是:探测、跟踪和记录被监控对象状态的变化。2)不是所有的状态变化都需要被关注,监控的目标和阈值以及其他规则决定,应该将哪些状态变化定义为事态。3)并不是所有的事态都需要被关注和需要同样的响应策略,事态的处理要求决定:应该如何响应和处理事态。监控和事态管理实践的目的是什么?如何从管理的纬度确定“为什么监控、监控什么、如何监控以及如何处理监控形成的告警和事态,形成监控管理的闭环”。监控和事态管理的关键成功要素:1)建立和维护描述各类型事态和探测它们所需的监控功能的方法/模型(确定监控对象、服务目标、监控指标)2)确保及时,相关且足够的监控数据提供给相关的利益相关者(提供有效的监控信息)3)确保发现、解释事态,并在需要时尽快采取措施(事态的定义和处置)如何能够达到上述目的:监控和事态管理核心通过三个管理流程达到上述目的:监控规划流程、事态处理流程、监控和事态的评审流程
如何构建一个有效的监控:监控规划流程
我们在构建组织的IT监控管理要求、IT监控管理体系和部署IT监控工具时,首先应该有一套规范的监控规划流程,核心要回答清楚:1)我们为什么要监控:监控的目标?2)我们计划监控什么:监控的计划?3)我们如何确定监控对象的状态变化是正常的:服务健康状态模型?4)我们应该关注哪些状态变化?5)检测到的状态变化应该如何识别其优先级?6)检测到的状态变化应该通知谁?谁负责?监控规划流程的概括监控规划流程的基本步骤如何处理监控产生的告警:事态处理流程
如何针对一类或一个监控对象规划监控计划和策略
大家通过监控规划流程和事态处理的流程了解了执行一类服务/资源监控的基本步骤和执行过程。那么在其中是否有一些具体的执行方法呢?这个我们将在下一期中给大家介绍如何基于SRE的SLO方法来执行监控规划流程。敬请期待。
页:
[1]