[p=30,2,center]学习资料:IT运维管理社区专家讲堂直播300期视频回放[p=30,2,center]
[p=30,2,center]
本报霍娜
2004年2月14日,既是周末,又是情人节,在交通银行办公大楼里,现任交通银行数据中心生产调度副高级经理的孙莉当时正以大型机系统管理员的身份参加全行第一次ITIL培训。从那一天开始,当时正如火如荼进行数据大集中的交通银行便迈上了IT服务管理的规范之路,并从此与ITIL、IT服务管理结下了情人般的不解之缘。
从一片空白到二级服务台
百年交行当前的IT布局是“一部两中心”——信息技术管理部、软件开发中心和数据中心。“一部”负责全行全面的信息技术管理工作,“两中心”分别做开发和运维。交行的IT运维经历了从无到有,从逐步规范到高效运行的过程。现在,交行数据中心由8个二级部门组成,共有135人。这8个部门既有按专业技术分工的设备、网络、系统等部门,也有专门负责ITIL流程管理的生产调度部。在这样的一个机构里,就是数据中心的这一群人,用自己的智慧和汗水保障了交行IT的安全高效运行,有力地支撑了交行业务的发展与创新。
毕业于重庆大学计算机专业的孙莉,从2001年交行筹备数据大集中开始,就参与其中,做了一段时间的大机系统管理后转到运行管理方面,开始接触ITIL实施项目,直到现在。笑称自己是“ITIL老兵”的孙莉向介绍,虽然现在交行数据中心一直稳定、高效运行,但其实在数据大集中以前,交行总行的IT运维是一片空白。“原来的运维工作都是各分行自己来做,伴随着数据大集中,分行的系统都集中到总行,运维的职责也就上移到总行,分行的各种问题都会报到总行。”孙莉说。
了解到,数据没有大集中之前,交行总行是没有太多运维工作需要做的,也没有专门的运维管理体系,更没有专门的运维部门。但是数据大集中之后,总行要承担全行系统的运维职责,风险、责任要比原来的分行大得多,这就对交行数据中心的运维体系提出了非常高的要求——必须在很短时间内完成从无到“优”的运维体系建设。于是ITIL就被应用到交行的运维管理之中了。
ITIL包括服务台、事件、问题、配置、变更和发布管理等的十大流程,而交行的IT运维最先应用的,也是至今应用得最好的是事件管理流程。
最初,交行的IT运维工作是先在总行建了一级服务台,每个分行有四个报单账号,当事件发生时,分行报单给总行。对于这仅有的四个报单账号的分配,各分行做法不一:有的分行是都分配给技术人员,业务人员有需要时通过技术人员向总行报单;有的分行则是直接分配给各个部门一个账号,比如会计部、公司部等,各部门自己报自己的单。但如此一来,上报总行问题的类别、层次和水平就参差不齐,有时由于培训不到位,有很多报单问题其实是业务、流程咨询的问题,甚至还有人是报单错误。
“总行本来人就少,如果再让这些人去忙着处理一些简单低级的报单,那就浪费了总行的资源。于是我们就把事件做了两级服务台,除了总行服务台,再以省直分行作为一级服务台,省直分行的技术部门可以在这里面做自己的分类,下面的业务部门和辖属分行就可以报到这里。他们首先会自己做一遍处理,如果说分行能解决的问题,他们就自己在分行内部解决,如果他们觉得这个问题是需要总行协助处理的问题,他们再通过这个服务台转派到总行,申请升级到总行,然后总行的人再去处理。这样可以过滤掉很多本地的问题,减少总行资源的浪费,让我们能把好钢用到刀刃上。”孙莉说。
过ISO20000明白儿地做运维
运维过程有很多问题,处理起来得分轻重缓急。交行如何对报单的各类问题进行分级梳理呢?他们将事件从弱到强分为一至五级:核心业做IT运维和开车一样,看着等同于油表的运维KPI指标数据,就能知道车速是多少,油耗是多少,总结出一脚油门踩急和踩缓所导致油耗的不同,进而实现持续改进。
2002年~2006年,交通银行(以下简称交行)完成了数据大集中;2006年交行将数据中心从上海陆家嘴迁移至张江高科技园区,成功迁移100多个系统;至今,新数据中心一直稳定、高效运行……实现这一切靠的是什么?那就是,高效的IT服务管理。务系统出了问题,整个系统全行都不能用的话是最严重的五级事件;某个系统不能用或者是某个分行有问题就是四级事件;一般系统出现一些交易类的问题就是三级事件;桌面、终端、打印机坏了等就是二级事件;建议类或者咨询查询类的问题就是一级事件。
而针对不同级别的事件,他们设计了不同的响应处理流程。大量事件都集中在三级,比如网络设备出现一般故障后,报单后归入三级,一线工程师进行处理,如果还有需要就会根据分派到二线工程师,领导不需要特别关注。如果是监控或银行客户报业务系统较大故障,一线接单后就会将事件的处理过程短信通知像孙莉这样的高级经理一层的领导。“而如果发生核心业务系统故障这类重大事件的话,我们就会在数据中心大楼直接广播,通知所有相关人员到ECC(总控中心)集合,领导到位决策后按照既定流程处理,解决问题。”孙莉说。
就是这样,交行基于BMC的Remedy平台一步步做起了事件管理、变更管理、问题管理和配置管理。而之所以会选择BMC的Remedy,参与当时选型的交行数据中心的王磊告诉,是因为当时国内还没有成熟产品,在横向对比了几大国际厂商的产品之后,他们发现当时Gartner的一份市场占有率的调查报告说BMC的Remedy产品在国外金融市场占有率较高,并且能够满足交行当时快速搭建快速上线的需求,于是交行选择了BMC的产品,并基于Remedy自带的灵活的AR平台,对全面的事件管理、变更管理、问题管理和配置管理模块进行了大量的二次开发,不断把自己新的管理思想在软件工具中落地实现。交行数据中心用得最好的是事件管理流程,后来他们又做了变更管理。目前他们有800多种变更分类,总共有九个控制点,排列组合出来九种路径,每一种分类指定好用哪个路径,谁负责审批谁负责实施,全都归类好。
回看这些年来交行的IT运维管理演进过程,2006年应该算得上是一个分界点,因为在那一年,交行选择开始过ISO20000认证。“以前,我们可能是尝试着用了一下ITIL的流程,但在2007年通过ISO20000认证以后,我们基本上采用了一套完整的流程管理体系。”王磊向介绍说。依据ISO20000,交行数据中心总共梳理出了13个流程,17个管理领域。每个流程中流程经理、协调人、联系人协同工作。数据中心的总经理高军曾用一个开车的比喻形象地说明了交行IT运维工作在通过ISO20000前后的不同,“之前没有数据结果,我们完全不了解整个IT运维的效果,而通过ISO20000认证之后,我们才知道IT系统的运行状况。这就好像开车一样,做了事件管理、变更管理、问题管理和配置管理四大流程以后,可以说我们的IT运维工作是开上车了,但我们并不知道这辆车的时速是多少,油耗是多少。但后来通过一些技术与管理的监控,我们就能拿到一些KPI指标,有了这些指标我们就知道系统的可用性是多少,每天大概故障率是多少,响应怎么样,解决率如何……”孙莉也打趣地说:“看着这些指标数据,我就知道我现在车速是七十迈,刚才是五十迈,油耗是多少,今天的油耗和昨天的油耗是否不同。通过不断总结经验,就能总结出一脚油门踩急和踩缓所导致油耗的不同,也就能知道刹车踩慢点,可以省油。我们做IT运维也是一样,梳理出事件、变更、问题和配置管理流程,加上一些监控,添加一些考核指标,慢慢就知道了运维工作是不是可以继续改进以及如何改进了。”
以考核为翼进行持续改进
ITIL是个需要持续改进的过程。2007年通过ISO20000认证之后,交行数据中心每年都会复审,至今已经连续三次以零不符合项的成绩通过了审核。这正是他们坚持执行PDCA持续改进的成果。交行数据中心的流程回顾会每半年开一次,每次会要开上15~20个小时,会议纪要大概要整理1万字。每次回顾会上,每位流程经理要介绍那段期间流程的运行情况及效率怎么样,还存在什么问题,下一个半年怎么改进等。BMC软件公司服务顾问梅继雄在接受采访时,向表达了对交行出色的持续改进工作的赞赏。交行数据中心还总结ISO20000的实施经验,并撰写、公开出版了《ISO20000认证与实践》一书。
对于接下来要改进的方向,交行数据中心已经开始对ITILV3做一些研究和培训,以便学习借鉴提高。
“ITILV3现在有近30个流程,对我们来说,我觉得并不是流程越多越好,而是根据遇到的实际问题,看看ITILV3里面是否有内容值得借鉴参考,再去新建一个有针对性的解决问题的流程。”孙莉说。
知识管理流程就是如此,孙莉他们正在做一个知识管理平台。孙莉介绍,原来他们并没有知识管理流程,相关的内容都在问题管理的子流程中,运行效果也一直不怎么理想,学习完ITILV3之后,他们要新建知识管理流程,来做好系统内的知识管理。
而在IT运维的持续改进过程中,如何得到技术人员的支持和配合、激励大家共同推动改进流程是所有做流程改进的人最头疼的问题。对于这个问题,交行数据中心开出的药方是绩效考核。考核就是指挥棒,它能规范、引导员工的工作。2009年,数据中心把原来考核全数据中心的一个可用性指标拿出来,细化分解为每一个二级部门的考核指标,占年度绩效考核的20%。如此一来,大家就很关注这个事情,会想法设法地解决问题,保障系统的可用性。采用这一方法,交行数据中心2009年各系统的可用性达到历史最好水平。目前,他们将尝试用更精细化的管理指标推进流程管理的各项工作。
如今,在“一部两中心”的IT布局下,借鉴ITILV3,结合自身的需求与实践,数据中心将把百年交行与ITIL的约会进行到底!
|