IT运维事件管理实践流程关键活动及成功要素
流程关键活动
从最终用户视角出发,运用价值流分析方法,对流程中的关键增值活动进行描述。关键活动的判定标准如下:若缺少任一活动,则流程目标无法实现;每一活动均对用户具有价值;任何多余的活动均构成浪费。
·事件的发现与登记
事件管理的起点,所有由用户或系统报告的IT事件均需从该活动开始。此活动的实施意味着事件可能对业务产生影响,属于被动的事件响应过程。及时发现并登记事件,确保事件能被迅速识别并分配,是快速解决事件、降低事件影响的关键。
·事件的诊断与调查
为有效管理IT事件,需迅速且准确地定义和测试假设。这要求多个专家或团队之间进行有效协作,以便快速定位事件发生的位置和根本原因,并找到相应的潜在解决方案。
·恢复受影响的服务和配置项至既定质量
对受影响的服务和配置项进行恢复至既定质量是关键活动。这涉及识别问题,确定原始状态,制定并执行恢复计划。通过这些行动,可以有效地恢复服务和配置项,减少业务影响,提高服务可用性和用户满意度。
·事件记录的管理
通过采用标准格式管理事件记录,并确保内容的完整性,可以有效地跟踪和处理事件。这不仅有助于形成事件模型,而且可以整合事件处理和解决的过程,从而提高事件管理的效率和质量。
·在事件全生命周期中与利益相关者进行沟通
在事件的全生命周期中与利益相关者进行有效沟通至关重要。这包括在事件发生、处理、解决以及后续跟进的各个阶段,都与相关人员进行有效的信息交流。这样的沟通可以确保所有人都对事件的状态有清晰的了解,从而提高事件处理的效率和满意度。
·事件解决后的回顾与服务改进
包括分析事件处理的过程和结果,识别存在的问题和改进的机会,然后制定并实施改进计划。这样的做法可以不断提升事件管理的效率和质量,进一步提高服务水平。
流程关键成功要素
关键成功因素是在特定流程中取得成功的决定性因素或要素。这些因素是组织在流程管理中必须优先关注和满足的,以确保流程的顺利运作成功。对于事件管理流程来说,其关键的成功要素包括:
1)尽早发现事件
尽早发现事件即在事件发生后和开始影响用户之前即被发现。通常有两种可行的方法:
·自动发现和报告事件
·监控和事态管理流程是发现事件的关键环节,它包括用于事态分类的工具和流程,能够区分事件、信息、事态和告警。因此,这两个流程是尽早发现事件的重要支持。
·自动发现的事件可以通过自动、手动或部分自动的方式进行分类。部分自动分类虽然需要手动操作,但会基于系统的建议进行。自动事件发现和分类可以借助机器学习解决方案,利用从过去的事件、已知错误和其他来源获取的数据。
·当事件无法自动发现时,通常会在事件已经对用户及其工作产生影响时才被发现。即便如此,事件的报告和记录仍然应尽早进行。这可以通过在用户中推广负责任的服务文化来实现,包括鼓励报告可疑的事件和行为,并在合理范围内容忍误报。
“左移”思维主动事件预防
“左移”概念最早来源于软件开发领域,特别是在敏捷开发和DevOps文化中。在软件开发的生命周期中,从左到右通常代表了从需求分析、设计、编码、测试到部署和维护的过程。“左移”意味着尽可能早地在这个生命周期中发现和解决问题,也就是尽量将问题的发现和解决“移向”生命周期的左侧。“左移”思维的真正内涵是预防优于治疗,早发现早解决。通过持续的监控和预警来提前发现可能的服务问题或者问题发生后对于用户的影响是用户无法感知到,而不是等到用户报告问题后才开始处理。
“左移”思维的目标是提高效率,降低成本,提高用户满意度。因为越早发现和解决问题,对用户和业务的影响就越小,解决问题的成本也越低。
·利用韧性运营和弹性运营技术,可以在事件发生后保持服务的正常运行,使用户不受影响。这是我们面对挑战的方向。我们还需要提前感知潜在风险,并及时处理,以防止事件的发生。
·当事件发生后,我们可以利用自动化技术进行处理,使用户无法感知或感知极小。同时,我们也可以通过告警技术,让工程师第一时间知晓事件,甚至在用户反馈前就已经解决问题或通知用户,这样用户就不需要主动发起事件。这是我们的目标。
·当用户感知到事件时,我们需要确保他们能够以最快的速度、最好的体验找到服务台寻求帮助并获得解决。如果事件影响了用户的业务或IT使用,用户应该可以方便地找到IT部门,并在服务级别协议(SLA)的期限内解决事件。这是我们的底线。
2)快速有效地解决事件
·在简单的场景中,例如经常发生的事件和公认的事件,预设的解决方案通常是最有效的。这可能包括自动解决或标准化的分派和处理,这些都是基于预先约定的事件模型。
·在复杂的场景中,即使事件的确切性质未知,只要能快速定位事件类型,就可以将事件分派到一个或多个熟悉系统和组件的专家组进行诊断和解决。有时,这可以帮助识别模式,并产生一个模型和/或解决方案,可以应用于未来的类似事件。
·在非常复杂的场景中,例如事件无法定位到具体的组件或知识领域,或者已确定的专家组找不到解决方案时,采用集体方法可能会有用。这种技术被称为“全功能团队”。
·事件应尽快解决。然而,参与事件解决的团队的资源是有限的,并且这些团队通常同时参与其他类型的工作。因此,应通过定义事件优先级来优先处理某些事件,以最大限度地减少对用户的负面影响。参考数字化IT运维管理体系建设指南等书籍资料
页:
[1]