IT运维监控和事态管理实践-流程关键活动
流程关键活动的识别是基于流程最终用户的视角,运用价值流分析方法,对流程中的关键增值活动进行描述。关键活动的判定标准如下:若缺少某项活动,则流程目标无法达成;每一项活动均对用户具有价值;任何多余的活动均构成资源浪费。
识别与优化监控范围
明确监控对象,包括服务、系统、配置项或其他服务组件,并制定相应的监控策略。
实施与维护连续监控
执行监控活动,利用本地监控特征及专门设计的监控工具,对观察到的元素进行监控。
建立与维护事态识别、分类及处理规则
制定阈值及其他标准,以确定状态变化是否构成事态,并选择定义每种事态(信息、告警或异常)的标准。
实施流程与自动化工具,确保已定义的事态管理规则得以执行
制定与维护处理检测到的事态的政策,确保管理得当。
根据既定规则与流程,持续处理事态
以约定形式向利益相关者提供监控服务与资源的当前及历史状态信息。
流程关键成功要素
特定流程中取得成功的决定性因素或要素。企业在流程管理中必须优先关注并满足这些要素,以确保流程的顺利运作。对于监控与事态管理流程而言,其关键成功要素包括:
1)建立并维护监控模型
当前监控与事态管理实践面临的主要挑战并非数据的缺失,而是处理数据规模的庞大。监控与事态管理流程的重点应是获取有意义的信息,以支持服务的操作与改进、决策制定及价值创造。在建立或改进监控与事态管理时,应考虑以下方面:
·识别并确定需要监控的服务和服务组件的优先级
确定需要监控的IT组件是该流程的关键活动,有助于检测对服务或配置项管理至关重要的状态变化(或非期望的状态变化)。基于对组织服务设计架构的深入理解,决定监控哪些服务、系统、配置项和其他服务组件,以符合组织的业务目标。
监控与事件管理流程的相关人员需了解服务依赖映射关系:顶层业务功能映射到支持这些功能的产品和服务,而这些产品和服务又映射到支持它们的底层IT基础设施。通过全面端到端描述交付服务所涉及的实体,监控与事件管理相关人员将能够正确识别并确定需要监控的关键实体的优先级。
此外,还需评估服务组件的可监控性,即被监控对象是否可被监控,以及何种监控方式更能准确反映对象的运行状态,并定义一套有效标准。所选标准应具备足够的可操作性,并为诊断与决策提供依据。
·在监控信息量、粒度与频率之间找到平衡
建立与维持对服务组件的持续监控可视为资源(监控工具、数据存储、人工时间等)的投入,而捕获的数据越多,预期回报越少。这是因为监控标准数量越多,探测频率越高,所需时间与精力在过滤、分类与分析数据上就越多。自动化与基于机器学习的解决方案有助于减轻人工负担,提高数据分析效率,在实际监控中应始终致力于实现监控效率最大化。
·建立数据收集、存储、过滤与数据关联能力
合适的监控工具:监控与事态管理由于需要收集与存储大量被监控对象的数据,该流程的执行严重依赖于监控工具的使用。若无被监控服务与服务组件的原生监控特性,无IT监控工具(通用商业工具及定制工具),则实际上无法检测对配置项或服务管理具有重要意义的状态变化。
执行数据分类、过滤与关联的工具,以及用于事态响应的监控工具。对于单个服务而言,通常由组织集成的第三方产品和服务组成,以向客户和用户提供端到端服务。这些第三方产品和服务的内置监控功能是监控与事态管理实践的关键部分。监控与事态管理相关人员需能够与设备和服务供应商频繁且良好地合作。这样,监控与事态管理和服务设计可以保护构成组织服务的必要产品和服务,并确保这些服务是可监控与可管理的。
为事态确定适当的控制动作取决于对检测到的状态变化的过滤与分类。对数据进行过滤与分类,并确定其重要性(确定数据代表信息、警告还是异常事态)的业务规则应由监控工具完成,而监控与事态管理人员仅针对过滤与分类后的信息执行相关动作。
·需制定策略以处理不同类型的事态
对事态采取“一刀切”的做法是不恰当且资源浪费的。不同类型的事态需要根据其类型定制相应的响应。应为每个事态类建立一套通用的控制操作。当适用自动响应时、当适用告警并需要升级为人为干预时或当事件/问题/变更需要启动处理时,都可以通过制定策略来解决。例如,在某个安全违规的情境中,它可能对运营有潜在影响但尚未影响服务的可用性。
2)确保及时、相关且足够的监控数据提供给利益相关者
在多个IT运维管理的工作范围内,都依赖于监控系统能够提供及时、相关且足够的监控数据给利用相关者,这包括:
·确定所提供的服务是否符合SLA
·执行服务改进时所依据的服务报告
·在IT运维管理中发现基础设施、应用系统等相关IT组件的薄弱环节、故障并确定应该在哪里采取行动。
3)确保发现、解释事态,并在需要时尽快采取措施
仅定义监控与事态管理规则是不够的,事态的实际探测与处理程序才能使这些规则具有价值。事态管理的效率与范围在很大程度上取决于服务架构与服务管理自动化水平。在数字化基础设施与当前应用中,许多用于监控与事态管理的工具是内置的,流程的重点是事态处理规则的集成与调整。参考数字化IT运维管理体系建设指南等书籍资料。
页:
[1]