[p=30,2,center]学习资料:IT运维管理社区专家讲堂直播300期视频回放[p=30,2,center]
2012年06月06日08:47来源:万方数据作者:王建明
IT服务管理的质量直接影响业务的质量,进而影响企业的市场声誉和客户满意度。信息技术基础架构库(ITInfrastructureLibrary,ITIL)为企业的IT服务管理实践提供了一个严谨、客观、可量化的标准和规范,是一套以流程为导向、以客户为中心的管理方法,对IT基础架构进行全面而集中的管理,以确保企业业务的平稳、高效运营。企业的IT部门可参考ITIL制定其IT服务管理流程,从而确保企业能够高效地实现IT服务管理,为企业的运作提供更好的支持。
基于ITIL的IT服务管理由服务台、事件管理、问题管理、变更管理、配置管理、发布管理、服务级别管理组成,事件管理是整个支持系统中的首要环节,具有应用广、重要性大的特点。目前,我国实施IT服务管理的企业中绝大部分已执行了事件管理流程。事件管理往往以快速解决表征现象为目的,而不在于查找根本原因,因此,时效性成为评价企业事件管理水平的重要标志。
事件管理是IT服务管理中的一个核心流程,提升事件管理时效性、回归事件管理本身属性,可以提高IT服务的质量,有效改变目前我国企业普遍存在的重开发、轻运维的现象,真正践行以服务为导向的ITIL理念,通过切实有效的IT服务管理为企业创造价值。
一、事件管理的目的
事件是指引起或可能引起服务中断和服务质量下降的事件,也可以是一种为个人提供**的请求。事件管理是负责解决IT服务过程中的突发事件、问题以及客户需求等内容的运维管理。事件管理中的事件是一个广义的概念,不是狭义的故障,它可能是软件、硬件问题,也可能是服务需求事件。
目前,很多公司IT运维管理部门没有建立事件处理的优先级和解决时限关联,不能保障事件解决的实效性和IT资源的有效利用,事件发生后没有明确而唯一的责任人,缺乏有效的对事件监控和跟踪的机制,没有统一的IT服务管理应对事件受理的界面、完整的记录和及时反馈,缺乏事件监控和诊断等技术工具,事件不能在技术工具的支持下得到主动、快速处理。IT人员工作被动,只能像救火队一样,不知道什么时候、什么地方会出现“火”情,只有当事件发生并且已造成业务影响时才能发现和着手处理。这种被动“救火”不但使IT服务人员终日忙碌,也使IT服务本身质量很难提高,导致IT和业务部门的满意度都不高。因此,将IT服务管理的理念和方法应用到企业信息技术的服务管理中,是确保企业IT工作发挥效益的重要举措。企业在实施IT服务管理的过程中采取的方式和进程并不相同,有的全盘开展ITIL所有流程,有的仅从建立服务台开始,循序渐进。事件管理流程是服务支持中的第一项流程,是在IT系统遇到问题之后,解决问题的第一个环节,与其他流程相比,它的应用最广、重要性最大。
事件管理的目标就是对组织及用户在尽可能小的影响情况下,使IT系统尽快恢复到服务级别协议所定义的服务级别,以确保最好的服务质量和可用性级别。也就是说,迅速解决问题,将不利影响降到最低,提高追踪和事件升级的效率,更好地控制整个管理过程。为了实现这个目的,事件管理流程必须最佳地利用资源支持业务、开发和维护有效的事件记录以及设计和应用统一的事件报告方法。事件管理侧重于恢复服务,为了能够有效地解决问题,事件管理还必须对不同的事件进行分类和排队,分类就是要分成不同的优先级,排队就是要识别它们。因此,事件管理的主要活动有两个,一是对事件进行优先级分类;二是记录事件,把记录下来的内容形成一个资源库,为将来分析挖掘知识储备资源。
事件管理的主要任务是及时识别并跟踪发生的事件;对事件进行分类并提供初步支持;对事件进行调查分析,识别引发事件的潜在原因;解决事件并恢复服务;跟踪和监督所有事件的解决过程,并随时进行沟通。因此,研究事件管理对解决目前IT运维中存在的服务问题具有重要的意义,事件管理的时效性将直接影响整个企业的IT服务质量和整体运营状况。
二、事件管理的基本流程
事件管理流程大概如下:当一个事件输入的时候,首先要对事件进行检查、定位。检查事件的时候要与它不断交互,明确它的影响范围和紧急程度,还要进行初步的归类评估。服务台(ServiceDesk)是事件的唯一入口,它接收事件后,操作人员通过查阅CMDB〔配置管理数据库)进行处理。具体流程如图1所示。
▲图1事件管理的基本流程
1.事件的查明和记录
服务台记录一些标识客户的基本信息,如姓名、工作地点、电话号码等,而事件管理记录详细的事件信息,如事件发生的时间、受事件影响的服务等。这样做的目的是便于确认事件的影响,问题管理可以根据这些信息查找事件原因,密切跟踪事件进展。
首先,当用户、服务台工作人员或其他IT部门人员发现或系统检测到某系统发生事件时,就将其报告给服务台,服务台将基本信息输入事件数据库并报告给事件管理人员。通常所有的事件都是先报告给服务台,再由服务台工作人员将其输入事件数据库,服务支持小组是不允许直接记录事件的。
其次,事件管理人员给事件一个唯一的编号(事件单号),记录一些基本的事件分析信息(时间、症状、位置、用户、受影响服务、硬件等),并补充其他的事件信息(与用户的交互信息和配置管理数据库等。
再次,事件管理人员根据服务台提供的信息和事件数据库信息判断此类事件是否与已有的事件相同或类似,如果有就更新事件信息或建立原事件的从属记录,并在必要时修改原事件的影响度和优先级,如果没有则创建新事件记录。最后,事件管理需要判断事件是否严重,如果严重就先向管理层报告并告知用户有关情况,再采取进一步行动,如果不严重就直接进入下一步的事件初步归类和支持。
2.初步归类和初步支持
经过第一步的事件查明和记录,可从用户处获取的事件信息基本上已得到,事件管理数据库已经根据这些信息进行更新,接下来就是事件的初步归类和初步支持。这里强调初步,就是为了能够尽可能快地恢复用户的正常工作,尽量避免或者减少事件对IT服务质量的影响。
归类的目的是发现事件原因以便采取相应行动。一般来说,许多事件是重复出现的,因此,当某个事件再次出现时,只需要根据已有的经验和措施采取行动即可:,当新的事件出现时,就有一个与其问题和知名错误(知识库)相匹配的过程,如果匹配成功就可直接用已有的方案将其解决,而不需要进一步调查,否则就要继续进行下面提到的其他几个步骤。
服务台如果没有成功解决事件,就将事件转交给二线、三线支持处理,然后负责记录事件并联系各支持小组,采取必要的措施以确保用户满意。如果碰到未出现过的事件或事件解决过程非常复杂,就必须对事件进行调查和分析。
3.事件调查和分析
事件在第一阶段和第二阶段没有圆满解决时,专家支持小组应介入处理过程,对其进行调查和分析。
一旦事件被分派给某个支持小组,他们应当完成以下工作:确认接收事件处理任务,同时指定有关日期和时间以保障正常更新事件状态和历史信息,经过服务台及时通知客户事件最新进展,说明事件当前所处的状态;尽可能快地把发现的权宜措施提供给服务台和客户;参考知名错误、问题、解决方案、计划的变更和知识库等对事件进行评审;必要时要求服务台根据协议的服务级别,重新评价事件影响度和优先级,并在必要时对其进行调整;记录所有相关信息,包括解决方案、新增的或修改的分类;将所有相关事件的更新、花费的时间以及处理结果反馈给服务台以让其终止此类事件。
|