IT运维问题管理实践流程关键活动
流程关键活动
流程关键活动是以流程最终用户为视角,采用价值流的方法,描述流程的关键增值活动。关键活动的判定准则是:少一个活动流程目标无法完成;每一个活动都对用户产生价值;多一个活动都是浪费。
变更管理流程始于变更的接收,结束于变更的实施和回顾。该流程包含下述主要内容:
·问题识别
评估潜在影响的错误和漏洞,以决定他们是否值得调查。有两种主要方法来识别问题。
第一种方法是调查已经发生的事件的原因。这种方法先要了解症状,再了解原因。它目的是防止事件再次发生,也可能有助于解决处于解决中的事件。这称为被动问题管理,因为它是对事件的被动反应。
第二种方法是在问题导致事件发生之前识别到它,评估相关风险,并优化响应,以最小化事件发生的可能性和/或影响。这称为主动问题管理,基于有关问题的信息,尤其是在生产环境中可能存在的问题。这些信息来源可能包括:
·供应商告知其产品中的漏洞
·开发人员、设计人员或测试人员在使用下一版本时发现生产版本中的错误
·用户和专家社区分享其他组织的经验
·基础设施的监控发现系统性能中的偏差,但这些偏差还不属于事件
·技术审计和其他评估
·问题控制
问题识别使得问题被登记形成问题记录。可能形成一系列待分析问题列表。已记录的问题将根据其最初的分类和优先级进行分析。问题完成分析之后,问题初始分类很可能会发生改变,特别是基于事件(症状)信息登记的问题。
问题控制专注于问题的分析。在被动问题管理中,问题分析可使用关于产品架构和配置的信息来识别可能导致相关事件的配置项(CI),分析不限于配置项,还包括其他因素,例如:用户行为、人为错误和规程错误等。
主动问题管理通常从更好地掌握配置项和服务管理四维模型中所有维度开始,这些组件可能导致事件。例如,如果供应商将其软件中的漏洞告知组织,则问题控制的任务将是掌握组织使用该软件的情况,以便评估与漏洞相关的风险以及对所提供服务的潜在影响。
对问题完成分析后,将为其分配为”已知错误”状态。
问题分析过程中可能会发现错误已经从组织的环境中消除,或者它们不会影响所提供的服务。根据上面的示例,组织可能未使用该软件易受攻击的版本,或者漏洞可能不会影响组织的服务。在这些情况下,问题记录经过分析后可以设置为已关闭。在其他情况下,它可能保持处理状态,并启动错误控制。
问题控制其他的重要输出可能是解决事件的建议。通常,了解导致事件的原因有助于,为处理事件提出更有效的解决方案,包括临时解决方案。
从问题分析得出的临时解决方案通常不会减少发生事件的可能性,而是,有助于在事件发生时,更快、更好地解决事件。有助于防止事件再次发生的临时解决方案通常在错误控制阶段被找到。
·错误控制
对问题进行分析后(如,产品中的错误对组织自身服务的影响已经被评估),应该对其进行控制。仅当满足以下条件之一时,问题记录才可能关闭:
·问题被解决:与问题相关事件的风险被移除,或降低到可接受的水平。
·问题不再影响组织。
“已知错误”是问题的状态,部分组织可以将问题和已知错误分开记录、管理管。在这些情况下,当问题分析完成时,问题记录可能被关闭,并且随后的活动可能被登记到相关的已知错误记录中,上述关闭条件适用于已知错误,无论它们是否是问题。参考数字化IT运维管理体系建设指南等书籍资料
页:
[1]