IT运维问题管理实践被动问题识别流程和问题控制流程
被动问题识别流程
表:被动问题识别流程步骤说明
序号步骤名称责任人说明
501.1问题登记问题经理事件回顾与趋势分析触发问题管理
问题经理周期性的召集由事件经理、问题分析专家参加的会议,对事件记录详细信息进行趋势分析(可以每周/每月为周期):
·在本周期内每类事件的数量
·发生的频度有不断增加的趋势的事件
·对于没有根本解决的事件记录进行分析
可采取趋势突变法(如有30%增长率的某类事件)或阈值法对事件进行分析,发现需进一步分析的潜在问题。
另外,问题经理也可以根据需要召集问题分析专家等相关技术人员对于未根本解决的问题进行再次分析,以决定是否需要创建问题来进一步分析。
事件经理重大事件触发问题管理:
在紧急事件处理完成后(无论是否根本解决),都由事件经理将紧急事件的处理情况、事件记录提交给问题经理。
501.2问题的初步分类与分派问题经理事件趋势分析触发的问题:
登记问题过程中,进行问题的初步分类。通常包括以下这些内容(如果已知或合理假设):
·描述
·相关事件及其解决方案
·关联的配置项和或配置项类·估计未来事件的影响和概率
·相关和可能受影响的服务
·对组织和客户的影响
·估计的事件影响和概率
根据初步的分类,将问题分派到一个负责相关的配置、服务或产品的专家组
事件经理重大事件出发的问题:
登记问题过程中,进行问题的初步分类。通常包括以下这些内容(如果已知或合理假设):
·描述
·关联的配置项和或配置项类
·预估事件的影响和概率
·相关和可能受影响的服务·对组织和客户的影响
如果问题是在诊断分析之前进行登记,则问题将被分配给适当的专家组。如果问题在诊断分析之后登记,则信息应用包括所做的步骤、结果和问题的当前状态。如果在登记时问题还没有得到解决,则将其分配给适当的组。
问题控制流程
表:问题控制流程步骤说明
序号步骤名称责任人说明
502.1.1查找可能原因问题处理人·专家团队对被分派的问题进行调查,分析的可能原因,并且/或者验证配置项以及组织的其他资源中报告的错误。方法和过程取决于问题的识别方式。
对于被动识别的问题,首先要了解哪些配置项可能存在导致过去或正在发生事件的错误。对于大多数主动识别的问题,在登记时会识别出配置项或配置项类。
·问题定位到配置项级别后,可能需要进一步的诊断以识别可疑配置项的错误。此活动及其以后的活动可以由不同的团队执行(团队根据问题具体情况进行重新分配)。
·如果报告的问题与组织不相关(例如,公开报告的软件中的脆弱性不影响组织使用的版本),则可关闭问题记录。
·如果研究的问题与组织相关,则将其设置为“已知错误”状态,来用于进一步的控制和解决。调查的操作和结果记录在问题记录中。
·问题分析专家对问题进行分析,找出可能的原因列表。
·如果该问题比较复杂,需要其他专业组配合,则通知问题经理来协调资源,召开问题分析小组会议来共同分析。
502.1.2确认问题根本原因问题处理人·分析问题的原因列表,找出最有可能的原因并测试,从而确定问题的根本原因;
·当问题分析专家预见或确认目前不能确定问题的根本原因时,通报问题经理,来共同分析对该问题的处理。
502.1.3推荐方案(永久或临时)问题处理人·问题分析专家根据需要制定相应的变通方法(如果已预见到根本性解决问题需要时间而问题需要首先临时性解决或得到控制),以降低问题的影响;
·将问题根本原因及变通方法信息更新到问题管理系统中,并更新问题状态为“已定位原因”并通报问题经理;
·如需要,更新相应的知识库。
502.2.1跟进问题状态问题经理问题经理定期检查问题状态,当:
·检查问题的处理情况,认为需要时;
·接收到问题分析专家在问题分析诊断及解决过程中发来的通报时。
问题经理(需要时协调问题分析专家)根据问题记录的当前状态、现在的解决进度等来分析判断该问题如何继续。
502.2.2通报问题原因/变通方法/根本解决方案问题经理如需要,及时将问题根本原因/变通方法/根本解决方案通知(通过电话,email等)服务台及问题请求者,使服务台能快速响应类似或相关事件,降低对业务的影响。
参考数字化IT运维管理体系建设指南等书籍资料
页:
[1]