如何构建IT监控管理体系?(一)IT监控管理流程设计
IT监控工具大家都不陌生,是目前做IT运维的必须工具之一,但大部分组织都遇到相当尴尬的情况:“平时不用,用时不管用”。花重金购买亦或者花很大精力把开源IT监控工具部署起来,能够获取指标、能够有告警就认为监控已经完成了。奇怪的现象出现了: 为什么会出现这种状况呢?其中有一个最重要的原因就是:缺少从管理的纬度来设计IT监控这项任务到底该如何做。今天我们来解读一下ITIL4的“监控和事态管理实践”是如何从管理的视角来管理IT监控体系?只有在管理上想明白了IT监控该如何做,那么IT监控的价值才能真正的发挥出来。
[p=22,null,left]ITIL4监控和事态管理实践在讲什么?
该实践的核心假设是: 1)监控的本质是:探测、跟踪和记录被监控对象状态的变化。 2)不是所有的状态变化都需要被关注,监控的目标和阈值以及其他规则决定,应该将哪些状态变化定义为事态。 3)并不是所有的事态都需要被关注和需要同样的响应策略,事态的处理要求决定:应该如何响应和处理事态。 监控和事态管理实践的目的是什么? 如何从管理的纬度确定“为什么监控、监控什么、如何监控以及如何处理监控形成的告警和事态,形成监控管理的闭环”。 监控和事态管理的关键成功要素: 1)建立和维护描述各类型事态和探测它们所需的监控功能的方法/模型(确定监控对象、服务目标、监控指标)2)确保及时,相关且足够的监控数据提供给相关的利益相关者(提供有效的监控信息)3)确保发现、解释事态,并在需要时尽快采取措施(事态的定义和处置) 如何能够达到上述目的: 监控和事态管理核心通过三个管理流程达到上述目的:监控规划流程、事态处理流程、监控和事态的评审流程
[p=22,null,left]如何构建一个有效的监控:监控规划流程
我们在构建组织的IT监控管理要求、IT监控管理体系和部署IT监控工具时,首先应该有一套规范的监控规划流程,核心要回答清楚: 1)我们为什么要监控:监控的目标? 2)我们计划监控什么:监控的计划? 3)我们如何确定监控对象的状态变化是正常的:服务健康状态模型? 4)我们应该关注哪些状态变化? 5)检测到的状态变化应该如何识别其优先级? 6)检测到的状态变化应该通知谁?谁负责? 监控规划流程的概括 监控规划流程的基本步骤 如何处理监控产生的告警:事态处理流程
[p=22,null,left]如何针对一类或一个监控对象规划监控计划和策略
大家通过监控规划流程和事态处理的流程了解了执行一类服务/资源监控的基本步骤和执行过程。那么在其中是否有一些具体的执行方法呢?这个我们将在下一期中给大家介绍如何基于SRE的SLO方法来执行监控规划流程。敬请期待。
|