学习资料:IT运维管理社区专家讲堂直播300期视频回放
一、概述
事件(Event)可以被定义为任何状态的变化,这种状态的变化可能会对IT基础设施及其支持的IT服务产生重大影响。因此,需要对事件进行规范的管理。
通常,事件的监控主要是通过各种监控工具来实现的,这样的工具主要可被分为两类:
主动监控工具:定时扫描配置项以确定它们的状态和可用性,并对任何意外情况产生一个警告(Warning),这个警报需要发送给适当的工具或团队以便采取行动。
被动监控工具:检测和关联由配置项产生的运行警报或通知信息。
事件监控过程中,一般的事件就记录在系统日志中,有些简单的告警会触发自动批处理〔比如,发送SNMPtrap、执行提示音乐等〕,再严重一些就可能以例如发送短信等方式提示管理员注意,比较严重的则会产生工单进行跟踪,特别严重的则会启动应急预案等。
二、目标
事件管理提供检测、分辨事件并确定恰当的控制行动的能力。由此,事件管理是服务运营监视和控制的基础。另外,如果这些事件被以程序化的方式用以交流运营信息(包括告警和异常),它们就将作为服务运营的基础被用于自动传递给其他的运营管理活动,比如:在远程设备上执行脚本、提交批处理作业或者通过多设备增强性能来动态平衡服务需求等。
因此,事件管理提供很多服务运营流程和活动的执行入口。事件管理也为服务报告和持续服务改进提供基础。
三、范围
事件管理可用于服务管理需要控制和自动化操作的任何方面。
配置项:确保关键的配置项保持在稳定的状态(比如网络中的交换机需要保持“运行”状态,事件管理工具通过监视“ping”的响应来确认该状态);有些配置项的状态需要定期改变,事件管理将这项工作自动化并更新至配置管理系统(比如文件服务器的更新);
环境条件:比如火灾或烟雾检测、机房温湿度条件检测等;
软件许可监视:确保使用和分配了合法的软件授权许可;
安全性:比如入侵监测;
正常工作活动:比如跟踪应用系统的使用情况和服务器的性能等。
监控和事件管理的区别:
这两个概念是紧密相关的,但在本质上又有细微差别。事件管理关注的是关于IT基础架构和服务的有意义的通知信息的产生和检测,而监控需要检测和跟踪这些通知信息,监控比事件管理范围更大。比如,监控工具检测设备状态以确保设备运行在可接受的限度内,即使该设备不产生事件。
简单来说,事件管理关注那些发生并被监控的事情,监控则跟踪这些事情,但它同时还会记录那些没有产生事件的情况。
四、对业务的价值
事件管理对业务的价值总的来说是间接的。然而,还是可以明确它对业务的一些基本价值:
事件管理提供了尽早检测到故障的机制。在大多数情况下,在服务出现问题之前即可检测出故障并分配给适当的技术小组采取行动。这样,会减少昂贵的、消耗资源的实时监视的需要,从而降低宕机时间;
如果事件管理与其他服务管理流程集成,它还能够发出状态改变或者意外发生的信号指示给其他流程,由此适当的人或团队就可以更早地做出响应,这样就提高了流程的性能,业务也因此而收益;
事件管理为自动化运营提供了一个基础,由此提高了效率并使昂贵的人力资源用到创新性的工作当中,比如设计新功能或改进功能,或制定新的业务能够利用技术提高竟争优势的方法。
五、基本概念
ITIL中定义的事件可以包括三种情形,即通知性消息、警告和异常。
1、通知性消息(Information)
通知性消息是指那些显示正常运行的事件。它们一般保存在系统中或服务日志中一段时间。信息事件通常用于检查设备或服务的状态、确认活动是否完成,也用于生成统计(比如在一定时间段内登录到某个应用的用户数量),并作为进一步调查的依据。对于通知性消息,一般不需要采取干预措施。常见的“通知性消息”的例子有:
通知预订的工作任务己经完成;
用户登录并使用应用系统;
邮件到达既定接收人:
批处理中的一项作业顺利完成;
一个设备上线;
一个交易成功完成。
2、警告(Warning)
警告表示某一项服务或者设备即将达到闭值。这时需要通知恰当的人、流程或工具,以便事件能被监测并能采取恰当的行动来避免意外发生。警告通常并不是针对设备故障而发出的。有些情况下,警告是由于某些临时性的状况导致的,当临时性的状况消失后,警告也就自动消除。而有些情况下,如果警告反复出现或者持续时间过长,就需要操作员进行干预了。这些规则或者策略需要在监控目标中加以定义。常见的“警告”的例子有:
交易完成时间比正常情况长10%;
服务器的内存利用率目前在65%且还在上升,如果到达75%就无法接受;
网络的冲突率在过去一小时内上升了15%等。
3.异常(Exception)
异常情况是指IT基础架构中某个设备的相关参数超出了阈值(Threshold)并已经导致或者即将导致服务中断或者服务质量下降。典型情况下,这意味着违背了OLA或者SLA,且业务受到了影响。异常可以表示为一个全面故障、功能受损(ImpairedFunctionality)或性能降低(DegradedPerformance)。但请注意,异常不总是代表故障。比如,当网络中发现一个未授权网络设备时,异常就发生了,可以通过故障记录或变更请求(甚至是两者)来管理这个意外,这依赖于组织的故障和变更政策。另外,备份设备上出现的故障虽然并不影响当前服务,但也被视为异常。常见的“异常”的例子有:
用户尝试用不正确的密码登录应用系统;
设备的CPU超过了可接受的使用上限;
PC扫描发现安装了非法软件;
服务器宕机;
通过网络进行标准交易的响应时间已经超过15秒;
目前已有超过150个用户同时登录到某一应用进行操作;
网络某一部分未能响应例行请求。
警告和告警是一组很容易混淆的概念。在监控活动中,警告〔Warning)通常是指即将达到但尚未超过阈值的情形,而告警(Alert)则是指已经超出阈值的情形。
|