IT运维管理监控和事态管理实践-案例背景与管理痛点
长期以来,A公司对于IT管理工具的建设投入了大量精力,然而,一系列不期望出现的问题仍然频发:
·尽管监控工具种类繁多,管理上却显得杂乱无章。不同领域、技术方向的监控工具众多,消耗了大量计算与存储资源,但其成效并不显著;
·尽管监控工具功能全面,但故障处理效率并未见显著提升,许多问题仍需用户报告,而非工程师主动发现;
·部分监控工具的监控范围未能及时更新,以适应环境变化;
·许多工程师选择关闭监控告警推送功能,原因是告警数量过多,且大多数并非实质性问题;
·尽管监控工具众多,工程师在排查故障时却几乎不使用它们;
·其他问题亦不胜枚举……
实际上,监控作为A公司关注的基础IT运维管理活动之一,旨在通过监控手段预先感知IT组件异常,防止其对用户体验产生负面影响,从而确保工程师能够及时介入,最小化IT组件异常对用户体验的影响。然而,实际效果并不理想。下图为A公司当前使用的监控工具汇总。
案例研究与解决方案探讨
针对A公司所遭遇的监控难题,众多企业或组织亦面临相似挑战。通过深入分析,其成因可归纳为以下几点:
① 监控工作被视作仅涉及技术专业团队的事务,监控工具的构建任务被下放至各专业团队,从而导致监控工具之间缺乏协同效应;
② IT监控建设仅局限于工具层面,缺乏从监控体系构建的宏观视角出发,即IT监控的管理需求未得到充分考虑;
③ IT监控目标的不明确性导致监控内容模糊,进而使得各IT组件的监控阈值设置不合理,易引发监控风暴,最终导致工程师选择屏蔽监控告警;
④ IT监控未能与工程师的日常工作有效融合,工具建设必须服务于管理需求,若管理需求不明确,则工具难以融入日常的工作流程。
鉴于此,A公司深入学习ITIL4监控与事态管理实践,并将其与公司实际情况及需求紧密结合,提出构建统一IT监控体系的构想。该体系将综合考虑IT监控的目的、目标、管理需求、管理制度、管理流程、工具需求及考核标准。
监控目的之探讨
监控目的的确定对监控范围、监控指标的定义以及监控阈值的设计具有决定性影响。在执行IT监控过程中,明确监控目的至关重要,以避免被工具所左右,不应仅因监控系统支持某指标便进行监控,亦不应直接采用默认的健康策略,而是应基于实际IT监控需求,设定相应的监控范围、指标及阈值。
常见的监控目的如表,表:监控目的分类
监控目的分类目的描述
面向故障发现这类监控主要关注系统的运行状况,包括硬件故障、软件错误、网络问题等。一旦发现任何异常,就应立即采取行动,以尽可能快地恢复正常服务。监控的核心目的是应该预警或提示应用系统、关键服务或IT组件发生了故障,以便能够快速的响应,最大程度减少故障给业务或用户带来影响。
面向后端查看指标非常类似与汽车、飞机的仪表盘,通过对关键指标的时刻监控来反映监控应用系统、关键服务或IT组件的运行情况,是否是按照设计的状态在运行,如果有异常那么需要采取控制措施。这类监控主要关注系统的性能指标,如CPU使用率、内存使用率、磁盘空间、网络带宽等这些信息可以帮助我们理解系统的工作负载和性能瓶颈,以便优化资源配置和调整系统设计
面向根源分析是在应用系统、IT组件已经出现了影响正常使用的情况,需要找到是哪些组件出了问题、出了什么问题,来找到根因,来消除故障。这类监控关注的是系统问题的根本原因。通过深入分析系统日志、错误报告和其他相关信息我们可以找出问题的根源,以便针对性地解决问题,防止问题再次发生。
面向提前预知通过对于IT组件的运行指标的监控,能够预测未来系统运行的情况,提前做出干预措施,避免出现非预期的情况。比如对CPU、内存、存储等容量的规划等这类监控使用高级的数据分析和机器学习技术,预测可能出现的问题和性能下降。这使我们可以提前采取预防措施,提升系统的稳定性和可靠性。
面向平台展示通过监控的方式来展示IT系统、IT组件的关联关系,以及各IT组件的运行情况,便于优化和改进IT系统和组件的运行。这类监控主要关注如何将监控数据有效地呈现给用户,包括IT人员和业务决策者。这可以帮助他们理解系统的状态,做出更好的决策。
监控的目标
在目的确定的前提下,我们要确定监控的目标是什么,目标有阶段性,切忌一步到位,否则可能因为告警信息过载,而导致工程师无法忍受告警的干扰而停止使用监控系统。常见的监控目标如表:
表:监控目标分类
目标分类说明
服务可用性、性能和容量管理根据服务设计阶段的信息以及服务验证和测试实践,确定监控的关键目标。这包括对服务的可用性、性能和容量的监控,以确保服务满足业务需求和用户期望。
服务级别管理设定服务级别的目标,这些目标应对服务的质量和性能进行明确规定,并通过持续的监控确保这些目标得以实现。
从保证到实用性的需求转变开始时,团队应侧重于满足最明显的功能性需求(例如用户故事中的),然后逐渐过渡到更细致的需求和组件的监控。
定义监控优先级团队应制定一个优先级降序的监控列表,从关键服务性能开始,逐渐过渡到更详细的组件。
参考数字化IT运维管理体系建设指南等书籍资料
页:
[1]