IT运维问题管理实践问题来源的分类及相关定义
问题来源的分类
问题来源用来表明问题的发起方式,指明可能产生问题的业务活动节点,使得各业务活动执行人能够有意识的发起问题,具体示例如下:
表:问题来源分类定义
代码描述创建人
事件触发同个事件,反复发生:在某一时段内,同一个设备的某类事件反复发生事件经理
多个事件,相同现象:同类设备所发生的多个事件具有相同或相似症状事件经理
多个事件,相同对象:在某一时段内,出现多次影响同一个配置项或顾客的事件事件经理
通过临时解决方案解决的事件,该事件对业务有明显影响,且有复发的可能性。事件经理
单个重大故障:单个对业务造成严重影响的重大故障事件经理
主动分析日常主动发现:定期/不定期对用户基础设施监控或组件巡检和分析,发现的潜在且待根源分析的重大故障/隐患相关二线责任人
分析事件的数据和趋势,发现潜在的问题或隐患,如某类事件的数量出现攀升态势。事件经理
外部服务商告知产品缺陷相关二线责任人
问题优先级定义优先级是问题管理的一个关键要素,优先级决定了问题处理的顺序。问题提交人从问题的影响程度和问题紧急程度两个维度来确定优先级。
问题紧急度、影响度、优先级的相关规定参见以下示例:
表:影响度定义示例
影响度描述备注
1-非常大1.一类节点以下所有用户网络中断或者功能异常;
2.涉及国家安全或违反法律;门户网站或者网站生成平台上所有网站服务中断;
3.数据中心内所有用户
2-较大1.二类节点以下所有用户或一类用户网络中断或者功能异常;
2.单一网站的故障或门户网站功能异常;
3.一类应用服务中断或者功能异常;
4.数据中心存在一级事件隐患或影响局部用户。
3-一般1.三类节点以下所有用户或二类用户网络中断或者功能异常;
2.网站功能异常;
3.二类应用服务中断或者功能异常;
4.机房环境监控系统单点及多点故障
5.视频监控系统单点及多点故障
影响度是指受影响业务系统的关键程度,通常通过受影响的客户数量、受影响业务重要程度、可能造成的业务损失来决定。影响度判定标准:主要标准是用户级别,其次是用户数量。
表:紧急度定义示例
紧急度描述
1-危急20~30分钟内恢复
2-紧急30~60分钟内恢复
3-一般60分钟以上恢复
紧急度是指业务IT组织可接受的最长中断时间即业务出现中断后必须要在多长时间内恢复。
表:问题优先级定义示例
问题优先级影响度
重大较大一般
紧急度危急112
紧急123
一般133
问题的优先级可以根据影响度、紧急度两个纬度进行最终判定,并最终确定问题优先级为三个等级:1、2、3。
问题状态定义
为了记录问题处理的生命周期,需要设置不同的状态加以描述,如下所示:
表:问题状态定义
状态描述
待受理问题已被记录或创建,等待问题经理评审和分派。
已受理问题已被问题经理受理。
已分派问题已分派至相关人员,等待对方接受并处理。
处理中支持人员接受了问题并开始处理问题。
已找到根因问题根因已找到,但还未提交解决方案或变通方案。
已有解决方案已设计完成解决方案
待实施已提交解决方案或变通方法等待实施。
变更实施中问题解决方案通过变更来实施。
已完成已实施解决方案或变通方法。
已关闭问题关闭。
参考数字化IT运维管理体系建设指南等书籍资料
页:
[1]