|
·与服务级别管理、可用性管理、信息安全管理的关联性
监控与事态管理的执行目标及阈值设定,主要源自于对用户的服务级别承诺、IT组件的可用性管理以及整体安全性的测量,以此来判定在特定情况下应如何进行事态分类,包括信息类、告警类和异常类。
·与事件管理流程的关联
监控与事态作为事件管理流程的一个入口,监控产生的事态依据既定规则决定是否触发事件工单,通常情况下,事态触发的事件工单应尽可能实现自动化。
·与变更管理流程的关联
针对不同事态可能需要采取不同的响应策略,例如,对于异常类事态,可能需要立即启动变更管理流程。
·与问题管理流程的关联
在新事态分类中,对于告警类和异常类事态,若需确定事态产生的根本原因,则需依赖问题管理流程的支持。
·与配置管理流程的关联
事态可能源自特定配置项,或某个配置项可能产生多个事态,因此,事态应与配置项进行关联管理,这种关联通常是自动化的。
·与度量和报告管理流程的关联
度量和报告管理与监控及事态管理之间存在双向关系,一方面度量为监控提供目标和阈值,另一方面,度量和报告的决策基于监控和事态的持续性监控。
·与知识库的关联关系
知识库提供的知识记录有助于以最佳方式处理事态,提高解决效率,缩短事态处理时间,从而提升用户满意度。同时,事态的处理方案可以纳入知识库,为类似事态的处理提供指导。
关键角色、职责定义
1)关键角色与职责定义
表:监控和事态流程关键角色与职责定义 角色名称 | 职责 | | 对监控和事态管理实践的最终结果负责 负责监控和事态管理实践的原则、角色、职责和考核目标进行决策对监控和事态管理实践的有效性和效率进行监控,需要时发起改进 | | 在规定的业务范围内,负责监控和事态相关流程的开发、设计、实施、执行、结果统计及持续改善 与流程监管部门一起制定流程的考核KPI及其他绩效考核指标 负责对KPI的实施过程进行跟踪、回顾和分析,并提出优化建议 确保流程中每个角色对流程的整个过程都非常熟悉,确保每个角色都清晰的了解所在角色的职责要求(确保对参与流程的角色进行的充分的培训) 确保流程的执行过程被详细地记录下来,且是可以被追溯和审计的 负责监控和管理事态的整个生命周期,确保事态及时记录、分类和解决 | | 负责定义监控目标,与服务或负责人一起确定监控对象、监控需要达到的目的、提出服务或产品的性能和服务级别要求。确定监控优先级列表。 负责评估可用的度量监控标准,基于监控目标将监控优先级列表项映射或转换为可用度量或基于可用度量的综合度量和度量值。 负责定义监控对象的事态类型,对不同类型的事态进行定义和分类。类型可以是一般性的,如信息性,警告性,异常性,也可以是功能性,如核心应用、核心设备、接入设备等 负责定义不同事态类型的阈值,可根据现有的SLA和针对服务或组件定义的可用性,容量和性能的要求 负责定义服务运行状况模型(端到端事态),建立反应服务健康情况与IT组件的关联模型,以评估用户使用服务的体验; 负责确定监控产生的事态能够有响应事态的团队或职能部门; | | 负责基于针对某个监控对象的监控目标需求,设计出可以度量、监控的指标,以反应被监控对象的运行状态; 负责确定监控的指标、产生的事态准确反馈被监控对象的状态; 负责优化和调整监控的指标、事态分类规则、相关阈值的合理性;负责设计新的可监控指标和指标值以增加被监控对象的课监控性; | | 负责搭建、维护和实施监控各类的监控工具,以满足监控规划目标的需求; 负责各类监控工具的数据互联互通,以确保监控的指标能够真实、及时的反应被监控对象的关系;负责开发新的监控方式、监控指标以更加客观、及时反应被监控对象的运行状态; | | 实时参考监控工具;负责监控公司的IT基础设施、网络系统、服务器和应用程序等关键组件的运行情况。通过使用监控工具,及时检测系统故障、网络异常、性能问题或安全威胁等,并迅速做出响应。 通知相关负责人:在发生重要事态或紧急情况时,您将及时通知相关的负责人,例如系统管理员、网络团队或其他相关部门。您需要提供准确的信息,描述问题的性质、影响范围和可能的解决方案,以促使相关负责人快速响应和处理。 跟进事态全生命周期:负责监控事态的整个处理过程,从问题的识别和解决开始,直到问题得到完全解决并关闭。您将跟踪问题的进展,与相关团队合作,确保问题得到妥善解决,并在解决方案实施后验证其有效性。 文档记录和报告:及时记录和整理监控系统的告警日志、问题处理记录和事件报告。您将撰写清晰的文档,描述问题的诊断过程、解决方案和最佳实践,以便于知识共享和日后参考。 |
续表
角色名称 | 职责 | | 处置事态:在监控工具发出告警或检测到异常时,及时采取行动解决问题。您将负责分析和评估告警的优先级,并采取适当的措施进行故障排除、错误修复或紧急处理,以确保系统正常运行和服务可用。 故障排查和优化:除了处理实时的事态,您还将参与故障排查和系统优化工作。您将使用监控工具和其他技术手段,对系统性能进行监测和分析,寻找潜在的问题和瓶颈,并提出改进建议以提高系统的可靠性、安全性和效率。 |
2)流程角色与岗位、人员映射
表:流程角色与岗位映射表
参考数字化IT运维管理体系建设指南等书籍资料
|