IT运维事件管理实践-流程概要设计和流程详细设计
流程概要设计
流程概要设计构成了流程设计的初始阶段。在此阶段,主要任务是明确流程的核心要素及其相互关联,涵盖流程的起始与终止节点、主要流程步骤或活动、活动的执行顺序以及流程的主要参与者及其职能。流程概要设计通常采用图形化手段呈现,如流程图或流程地图,以便于人们更直观地理解与沟通流程。该设计阶段的核心目标在于确立流程的整体架构与逻辑,为后续的详细设计提供基础框架与指导方向,并可用于初步的流程评估与优化,识别流程中的瓶颈、冗余或非必要环节,以及潜在的改进空间。
事件管理流程可通过以下三个子流程实现:
·事件处理与解决流程:此流程负责全面处理与解决从发现至关闭的单一事件。事件可能源自多种渠道,包括自动监控系统、用户报告或IT服务团队的观察。事件一经发现,需进行记录与分类,以把握其性质与严重程度。随后,事件将被指派给适当的团队或个人进行处理,可能涉及诊断事件原因、实施解决方案,或在必要时升级至更高级别的支持团队。处理过程中,需持续监控事件状态,并与相关利益相关者保持沟通。
事件一旦解决,需正式关闭,并进行后续复查与分析,可能包括更新知识库、进行根本原因分析,或根据事件处理过程改进IT服务管理实践。整个流程旨在迅速有效地解决事件,最小化事件对业务运营的影响,并通过事件处理学习与改进,以提升IT服务的质量与效率。
·定期事件回顾流程:目的在于从事件处理与解决过程中汲取经验教训,并确保事件管理方法的持续改进。在此流程中,IT服务管理团队定期回顾与分析近期处理与解决的事件。该过程涉及对每个事件的处理流程进行深入分析,包括事件的发现、记录、分类、处理与关闭等各个阶段,以识别潜在问题或改进机会。
·重大事件处理流程:确保在系统发生重大故障时,能够迅速恢复业务,并充分调动技术资源,在最短时间内排除故障。该流程指导各系统建立相应的应急处理预案。
流程详细设计
1)事件处理和解决流程
表:事件处理和解决流程步骤说明
序号步骤名称责任人说明
100.1事件发现服务台人工事件发现:
·用户发现服务运营中的故障,并通过呼叫中心、拨打分区工程师手机、企业微信自助服务台、企业微信IT智能座席与IT部门服务台联系。
·服务台客服对该用户问询进行初始分类,确认该问询确实属于事件。
·工程师通过日常巡检等日常维护操作中发现事件;自动事件发现:
·监控系统检测到事态,并基于预定义的分类将其标识为事件。
100.2事件登记服务台·人工登记事件:服务台客服执行事件登记,将有效数据添加到事件记录中。
●自动记录事件:使用ITSM系统工具登记事件记录并将其与发现事态的CI关联。登记预定义的技术参数。必要时,给相关技术专家发送通知。
100.3事件分类并初步解决服务台人工方式:
●服务台客服完成事件初始分类;这有助于确定事件的影响,确定为失效C1或服务确定责任团队,并将事件关联到其他过去和正在处理的事态,事件或问题。
·在某些情况下,分类有助于找到以前为此类事件定义的解决方案。
自动方式:根据预定义的规则,将自动发现:·事件对服务和用户的影响
●可用的解决方案
·如果自动化解决方案无效或不可用,找到负责事件解决的技术团队。
100.4事件诊断一线工程师手动方式:
·如果分类没有关联到已知解决方案,专家团队开展事件诊断。这可能涉及将事件升级到不同团队,或其他联合技术团队加入(如全功能团队)。
·如果由于配置项关联错误而导致分类错误,则应将此信息传达给负责配置管理的人员。
自动方式:
·如果自动解决方案无效或不可用,则将事件上报给负责诊断的技术团队。可能涉及事件升级到不同团队,或其他技术团队加入(如全功能团队)。
·如果由于配置项关联错误而导致自动化解决方案失败,则应将此信息传达给负责配置管理的人员。
100.5事件解决线工程师/二线工程师手动方式:
●找到解决方案后,相关专家团队将尝试按顺序或并行工作方式执行,这可能需要启动变更。
·如果解决方案不起作用,则再次诊断。自动方式:
·如果有可用的自动化解决方案,则实施它,并完成测试和确认。
·如果需要手动干预,则相关的专业团队尝试实施,这可能需要启动变更。·如果解决方案不起作用,则再次诊断。
100.6事件关闭服务台/事件经理手动方式:
●成功解决事件之后,需要一些正式的关闭过程:
√用户确认服务恢复
√计算解决方案成本并报告
√解决方案结算报价和发票核
√问题调查启动
√事件回顾
·完成所有必需的操作并更新了相应地事件记录后,事件正式关闭。关闭由产品负责人,服务负责人,事件经理或服务台客服完成,具体取决于商定的事件模型。
自动方式:
·如果自动解决方案证明有效,则事件记录将自动更新并关闭。发送报告给负责的技术团队。
●如果在先前的任何步骤中已将有关事件的信息传达给其他利益相关者,则应向其传达事件关闭的信息。
3)事件回顾流程
表:事件回顾流程步骤说明
序号步骤名称责任人说明
101.1事件回顾和事件记录分析事件经理事件经理与服务所有者和其他相关的利益相关者一起,对重大事件和未及时解决的事件或特定时期内的所有事件实施评审,确定事件模型和事件处理程序的改进机会,包括事件处理和解决方案的自动化。
对于重大事件,事件经理必须在事件回顾前完成《重大事件分析报告》的撰写,以便各评审人能够对报告进行评审;
101.2事件模型优化启动事件经理事件经理记录优化方案,它将通过持续改进实践或启动变更请求开始。(如果事件模型、程序和自动化包含在变更支持实践的范围内)。
101.3事件模型的更新沟通事件经理如果事件模型成功地完成优化,将会传达给相关的利益相关者。通常由事件经理或服务以及资源所有者通过沟通过程完成。
参考数字化IT运维管理体系建设指南等书籍资料
页:
[1]