[p=30,2,center]学习资料:IT运维管理社区专家讲堂直播300期视频回放
[p=30,2,center]
{概念解释}问题为引发一个或多个事件的未知原因,而错误指问题经过诊断分析后找到事件产生的根本原因但并未找出可能的解决方案。问题控制是对发现的问题进行归类、调查和分析从而提出解决方案或应对措施的流程。错误控制是对已知错误进行处理和控制的流程。
{原因分析}问题控制和错误控制同属于问题管理的子流程,但各自的侧重点有所不同,问题控制的重点在于寻找问题的根本原因并制定永久解决方案,目的在于从根本上杜绝类似的事件发生;而错误控制更关注发现问题的根因后及时寻找问题的临时解决方案并纳入已知错误库管理的过程,目的在于当发生同类事件时能准确使用已知错误库,尽快恢复服务。另一方面,问题控制是针对问题的整个生命周期进行管理的过程,而错误控制并非一个必须要经过的过程,如果一个问题在一开始就已经识别出永久解决方案可以直接实施,并可确定未来不会再出现同一根因引发的事件,则未必需要错误控制。如某型号旧款服务器下周起将全部被更换掉,则处理该类旧服务器的临时解决方案就不必建立。
{流程活动}在问题控制和错误控制中,除了贯穿始末的跟踪和监控外,其核心活动主要涵盖:
- 问题检测与记录;
- 问题分级(依据事件类别的问题分类,结合紧急度、影响度确定问题的严重程度划分问题的优先级别);
- 问题调查与诊断(寻找问题的根本原因);
- 调查并记录问题解决方案;
- 实施方案解决问题(可能会提交变更请求,触发变更管理流程);
- 问题关闭(已知错误记录的状态应该同时被更新);
- 错误检测与记录(创建已知错误记录,即使不是永久解决方案,必须创建已知错误记录并置之于知识管理的已知错误数据库中);
- 调查并记录错误解决方案;
- 实施方案消除错误(可能会提交变更请求,触发变更管理流程);
- 关闭错误(相关问题记录的状态应该同时被更新)。
|