IT运维监控和事态管理流程概要设计和详细设计
一、流程概要设计
在信息技术运维管理过程中,监控与事态管理流程扮演着至关重要的角色。它们对于实现监控活动的规范化、监控工具的建设以及监控业务的标准化具有显著作用,进而有效避免数据孤岛现象的产生。这些流程的核心目标在于系统化地观察服务及其组件,记录并报告识别出的事态状态变化。关键活动包括确定基础设施、服务、业务流程以及信息安全事态,并对其优先级进行排序。同时,还需建立适当的响应机制,以指示潜在的故障或事件条件。
监控与事态管理流程的实现可通过以下三个子流程来完成:
·监控规划:此流程涉及制定监控目标、定义监控内容、确定事态类型、设定各类事态阈值、定义服务运行模型、制定事态关联规则以及关联事态与行动、角色和通知。通过明确的规划,可以避免无目的的监控,避免将监控简化为仅是指标采集的工具,确保每一个采集的指标都能为行动提供实质性的指导。该流程回答了以下问题:我们需要监控什么?我们需要采集什么数据?为什么会产生告警?什么样的告警会被产生?告警在何处产生?告警将对业务产生何种影响?谁应该处理告警?
·事态规划:此流程依据监控规划中制定的规则和策略进行事态采集,并对事态进行记录、分类、响应,最终根据监控规划的要求发送通知以处理事态。在此流程中,将与事件管理、问题管理、变更管理、配置管理等信息技术运维管理流程进行交互。
·监控和事态规划回顾:监控与事态管理是一个持续优化和迭代的过程。通过不断的回顾和优化,可以提升监控策略的有效性,使事态更准确地反映业务系统或信息技术组件的运行状态。回顾过程应确保监控与事态管理流程的持续改进,以最大限度地满足业务需求和保障信息技术系统的稳定运行。
二、流程详细设计 1)监控规划流程
表:监控规划流程步骤说明
序号步骤名称责任人说明
200.1定义监控目标临控和事态管理实践经理定义监控目标,这可能包括:·服务可用性、性能和容量目标:根据服务设计阶段的信息以及服务验证和测试实践,确定监控的关键目标。这包括对服务的可用性、性能和容量的监控,以确保服务满足业务需求和用户期望。·服务级别目标:基于SRE实践,设定服务级别的目标(SL0:ServiceLevelObject,),它针对SLI设定的一个目标,SLO是与时间窗口紧密相关的,是做出以数据为依据的可靠性决策的关键,并通过持续的监控确保这些目标得以实现。·功能需求满足度目标:团队应侧重于满足最明显的功能性需求(例如用户故事中的),然后逐渐过渡到更细致的需求和组件的监控。定义对象监控优先级:团队应制定一个优先级降序的监控列表,从关键服务性能开始,逐渐过渡到更详细的组件。
200.2定义需要和能够监控的内容监控和事态管理实践经理基于监控的目标,将监控优先级列表项映射或转换为可用度量或基于可用度量的综合度量。基于SRE的SLI(ServiceLevelIndicator,即服务水平指标),它是了解服务健康状况的个关键指标,是设置SLO的基石。常见的类型:可用性、延迟、吞吐量、错误率、饱和度。
200.3定义监控对象的事态类型监控和事态管理实践经理团队对不同类型的事态进行定义和分类。类型可以是一般性的,例如信息性,警告性,异常性,也可以取决于功能,用户组及其优先级,再通过关键监控目标的组件或类型进行划分。
200.4定义不同事态类型的阈值监控专家团队与服务或组件开发团队一起定义不同类型事态的阈值。相同的组件指标可能是根据现有的SLA和针对服务或组件定义的可用性,容量和性能的要求,它基于服务进行了不同的处理。另外,应该将处理吞吐量的事态纳入考量,因为尽管现代IT系统几乎可以探测到任何事态,但不是所有事态都需要进行响应。因此,从最初预防灾难到后来完善组件,通常都应将监控和事态管理进行迭代开发
200.5定义服务运行模型监控专家根据参与服务设计的团队的输入,构建了一个”运行状况模型”,它反映了服务及其关联的关键事态。一个服务可能有几种模型。这些模型使监控团队可以评估服务的用户体验。例如,可以为单个银行客户交易构建模型,并度量从移动应用程序中的请求(包括所有银行数据库系统到移动应用程序中完成交易的通知)花费的时间。服务“运行状况模型”也可以实现为服务健康和性能的报告或仪表板,并由服务所有者,参与其他实践的团队和其他利益相关者临时使用。这样,有关这些服务的信息就被干系拉取使用。
200.6定义事态关联和规则集监控专家与参与服务设计的团队一起,定义事态关联和相应的规则集。某些关联可能会使用第二个事态作为对第一个事态的检查,或者进一步过滤事态的范围。同样,已定义的关联可以帮助防止事态同时发生时可能产生的负面协同效应。规则集由多个规则组成,其定义了如何处理和评估特定事态的事态消息。例如,每次磁盘日志文件到达其容量时都可能生成警告事态,但是如果已生成四个以上的警告事件,则会生成异常事态。规则本身通常嵌入监控和事态处理技术中。它们由布尔类型的算法组成,用于关联已生成的事态,以创建需要传达的其他事态。这些算法可以编入通常称为关联引擎的事态管理软件中。
200.7与行动、角色和通知关联监控和事态管理实践经理对于每个事态或事态组,都定义了一个行动计划以尽量减少事态的负面影响。基于行动计划,可以定义响应事态的团队或职能部门。行动计划还可以自动执行或半自动执行,包括对某些重要操作进行人工干预。在此阶段创建的行动计划成为事态程序和自动化的基础。
2)事态处理流程
表:事态处理流程步骤说明
序号步骤名称责任人说明
201.1事态检测监控工具工程师监控系统检测到的事态,或作为手动监控的结果。并非所有事态都应被检测到,监控系统容量也应纳入考量。在现有有限的资源中应仅检测到关键事件和需要采取行动的事态。
201.2事态记录监控工具工程师事态应该最好自动记录在监控系统中。
201.3事态过滤和相关性检查监控工具工程师事态应该按照规则集进行处理,以过滤和查找相关性,以实现更好的分类。该活动可能是迭代的。
201.4事态分类监控工具工程师事态分类到组或类型中,如果需要选择适当的响应,则在组中进一步筛选特定事态。
201.5事态响应选择监控工具工程师在监控规划流程中应该为每个事态制定行动计划或响应规程。根据规划中定义的规则,选择事态响应和通知的团队。
201.6发生通知,执行响应策略监控工具工程师响应规程执行后,将通知负责操作或监督的团队(如果响应规程是全自动的)。
3)监控和事态管理回顾
表:监控和事态管理回顾流程步骤说明
序号步骤名称责任人说明
202.1确定回顾目标监控和事态管理流程经理回顾的目标是确定基于监控计划和事件处理的执行效果,这通常涉及对关键活动节点的优化或迭代,例如提高重大事件的检测率和优化事件筛选等。
序号步骤名称责任人说明
202.2确定回顾纬度监控和事态管理流程经理回顾的纬度包括:回顾重大事态或事件、回顾过滤和相关性分析、服务模型评估、评估事态的响应程序和自动化程度回顾监控和事态管理相关工具
202.3执行回顾监控和事态管理流程经理对于回顾改进的维度,需要识别与目标之间的差异,确定负责改进的责任人以及具体的行动步骤。这个过程需要进行深入研究,形成书面化的文档,并能够为实际行动提供指导。这包括:制定详细的行动计划:确定改进目标,并详细列出实现目标的各个步骤。这包括需要完成的任务,任务执行的时间线,以及负责每个任务的人员。执行行动计划:在行动计划的指导下进行改进活动。确保每个任务都按照预定的时间线完成,并及时解决在执行过程中遇到的问题。
202.4执行优化监控和事态管理流程经理执行改进活动的阶段是一个关键的步骤,需要通过以下方式进行:监控进度:定期检查改进活动的执行情况,与预定的行动计划进行对比,确保改进活动按计划进行。如果发现进度落后或遇到预期外的问题,需要及时调整行动计划。改进结果的评估:在改进活动完成后,评估改进的结果。这可以通过对比改进前后的指标来进行,也可以通过收集反馈来了解改进的效果。如果改进的结果未能达到预期,可能需要进一步的改进活动。这个过程需要持续进行,以保证监控和事态管理流程的持续优化。
参考数字化IT运维管理体系建设指南等书籍资料
页:
[1]