E8software 发表于 2014-6-20 14:00:27

【分享】“鹅卵石游戏”联想IT管理之道

学习资料:IT运维管理社区专家讲堂直播300期视频回放





课堂上,教授在桌上放了一个罐子,然后拿出一个拳头大小、正好可以从罐口放进罐子的鹅卵石,放入其中。“罐子满了吗?”教授问。“满了。”学生们回答。教授微笑着,接着从桌底下拿出一袋碎石子,把碎石子从罐口

倒下去摇一摇,碎石钻过鹅卵石与罐子之间的缝隙落入罐底。学生们诧异的张大了眼睛。随后,教授又从桌下拿出一袋沙子和一大瓶水,依次倒在看起来已经被鹅卵石、小碎石填满了的罐子……这是个与时间管理相关的实验。我们可以从中得出怎样的结论呢?我想告诉各位的讯息是:如果你不先将大的鹅卵石放进罐子去,也许以后永远没机会把它们再放进去了。那么,当一大堆信息系统问题一股脑抛于您的面前时,哪个才是那首先要放置罐中的鹅卵石呢?


被大量的IT问题同时困扰,是企业日常最头疼的IT管理问题。任何企业,只要它的人员组织、信息系统发展到一定的规模,就不可避免地会面临这样的难题。然而这仅仅是一个表象,在这个让IT人员分身乏术的问题背后隐藏着众多的挑战。譬如在金融行业,各家银行实施了数据大集中后,如何通过强化运营管理和安全管理,最大限度地发挥IT系统的效率,降低运行风险?经常遇到因各种原因导致系统故障而造成服务延误的情况,IT部门的员工如何才能摆脱被动的服务状态,哪里有问题就扑向哪里呢?在现有松散的管理体制下,关键人员的流动甚至会造成核心系统的瘫痪,怎么办?等等。这些问题并不是孤立存在的,它需要一个整体的IT服务管理方案。


信息系统正变得越来越难管理,原因在哪里呢?我认为有如下几个方面:
·庞大的网络系统:从LAN到WAN和Internet,企业正面临着日益复杂的信息网络;
·多平台系统:譬如S/390、Unix、Linux、Windows之间的融合变得越来越困难;
·格式不同的数据库:Oracle、DB2、MSSQL;
·复杂的应用程序:ERP、CRM、SCM等不断涌现的新应用使得信息化的需求更加多变和复杂;
·日新月异的技术:WebService、Wireless、SAN。


我们在信息系统上投入巨资,安装了世界上最先进的业务管理软件。我们希望在这些昂贵的代价之后,展现在面前的是这样一幅情景:
·减少重复工作和冗余工作,有效利用人力资源。
·提高IT员工的专业素质,提高员工的服务能力和工作效率。
·规范IT部门的服务水平,规范工作流程,降低由人事变动导致的风险。
·提高IT服务的可用性、可靠性和安全性,为业务用户提供高质量的服务。
·有效控制IT部门的开支,降低IT运营成本,减少运营风险。
·总体上提高企业IT投资的回报,给企业带来巨大的经济价值,提升企业的综合竞争力。


然而,对于绝大多数企业来说,都是事与愿违。他们不吝惜巨额投入,却不知道如何更有效地让信息化系统发挥应有的作用。信息化部门的人员仍旧忙得不可开交,来自不同部门的投诉接二连三,让他们应接不暇。企业经常陷于一片“火海”之中:
·花大力气管好了服务器,可是对应用好像没什么直接效果,业务部门还是经常投诉;
·业务部门经常抱怨应用太慢,可是才刚刚对服务器的内存升过级;
·手头有一笔预算,可是我不知道对哪部分设备升级才最有效;
·众多业务系统在不同部门之间互相交叉(采购、分销、物流、制造、库存、财务等),IT部门如何对这些业务系统分别进行有针对性地管理、开发、维护才能满足业务部门的需求?
·当业务系统出现问题的时候,如何快速定位责任人?如何最快速的恢复业务部门的应用而减少损失?
·多个业务系统出现问题的时候,如何判断应该首先解决那个部门的问题?


·如何避免同类的业务系统问题总是重复出现?
尽管IT人员觉得自己做了很多事情,可是问题还是经常出现,客户还是不满意,复杂庞大的IT系统要求我们使用更规范的模式来解决问题。为了表述更为清晰,我们把上文涉及到的问题归纳为四个方面:如何及时响应客户需求?如何处理优先级?如何降低服务成本?如何形成可积累并可复用的经验?


要通过面向人(而不光是技术),面向业务全程(而不光是局部),使IT发挥效能。提高对业务的支持力度,同时把IT部门从救火队的角色中解脱出来,升级成为保健医生。让IT管理迈向高效节能的新境界。


如何及时响应客户需求?
任何问题的提出者都渴望自己的问题在第一时间得到回应和解决,以便将因此所产生的损失降到最低。如何及时响应客户的需求就成为IT服务管理首要解决的问题。


建立完善的流程是第一步。建立流程的核心并不仅仅是以实施了某种软件为标志,而是IT部门如何定位自身的角色,同时采取何种方式来实现这种角色,建立完整的运维流程体系,尤其是从可持续发展的角度,来建立信息技术管理部门的运维管理架构,真正达到科技运行维护工作可规划和标准化,需要建立科学的IT服务管理流程,并在运维管理上形成有效的链接和闭环。IT服务管理中运维流程的主要目标就是能够采用一种及时、有效和高效率的方式处理服务请求,从而实现服务级别协议的承诺。
这些服务流程必须都是可衡量的。如果流程得不到衡量,那么它们就不能得到改进。衡量一个经过良好定义的流程包括输入和输出,能使组织具备预测流程绩效或性能的能力。这个能力对任何持续的流程改进来说都是基本的和不可缺少的。通过正确的指标,IT能衡量流程的性能并主动做出一些必要的调整—在服务中断之前(由趋势分析指示)—而不是被动地在失去了可能的业务机会后再调整。做到防患于未然。


没有一个流程是独立存在的。这意味着必须在更大的环境中去定义和衡量任何独立的流程;也就是理解和定义目标流程和IT环境中的其他相关流程之间的相互联系和相互依赖关系。如果流程之间关系不清晰或没有定义,很可能导致IT管理领域的错误和失败。例如,刚解决的一个流程问题可能导致其他流程的失败—就像堵塞堤坝上的一个漏洞,而在其他地方又出现了新的漏洞。许多IT部门在过去几年进行重组以努力解决它们所面临的资源和效率问题,同时他们也努力吸收、运用新的服务所需的新技术。在未来几年由于电子化服务的因素,这方面技术将会增加。然而,如果没有很好的定义可衡量化的IT流程,任何单个行为或即便结合起来都不能提供在电子化服务的市场中取得竞争优势所需的基础设施的稳定性和服务级别管理。


流程必须与人、制度相结合。建立IT服务流程之后,还必须明确责任人,只有责任到人才能真正提高响应效率。IT主管应当对服务工程师制定明确分工,排除接了电话乱找人的情况;并通过定义首问负责制,即哪位工程师最先接到业务部门的电话,就成为该项任务的责任人,他需要自己或者协调相关人员解决并关闭这个“CASE”。这就解决了工程师间互相推委的现象。服务流程建立起来后,并非万事大吉。可能员工们还是觉得电话方便,随叫随到。这就需要高层领导的支持,把IT部门新的电子服务流程方式固化成制度,让大家逐渐养成习惯。


建立应急方案。IT系统遇到灾难时,如果准备好紧急预案,根据此预案采取与IT服务相关的预防灾难发生的措施,对技术、财务和管理资源需求做好计划和协调,就能确保灾难发生后可持续提供服务,达成客户满意。这样的整体方案需要结合3P:即流程(Process)、人员(Person)和技术(Product)三大要素,标准流程负责监控IT服务的运行状况,人员素质关系到服务质量的高低,技术则保证服务的质量和效率。


如何处理优先级?
在确定突发事件管理流程以后,还必须通过区分突发事件的优先级来确保流程的有效执行,这一点非常重要。就像在盛满罐子之前,必须清楚鹅卵石是首选,之后依次是碎石、沙子和水。当IT服务部门必须同时处理数个突发事件时,由于受时间、资源和人力等的限制而无法实现时,首先,要排定处理的先后次序,针对不同的优先级处理。另外,每个人都会认为自己故障是最紧急的,所以理清各种问题的紧迫性并建立统一公开的标准是平衡各方的利益的前提,只有这样才可能使大多数用户满意。


那么服务优先级应当如何设置呢?按照什么原则进行划分?
确定突发事件处理优先级,需要综合考虑突发事件的影响、紧迫性、大小、范围、复杂程度和当前可供资源等多种因素。具体来说,IT服务的优先级设置原则有:
·针对不同的用户划分,譬如总裁一级的领导,他的优先级需要适当往前排,因为他们的时间要比员工宝贵,为他们节省时间就是为全公司在获取最有利资源;
·根据不同业务部门的系统划分,譬如财务系统等关键系统的优先级比较高;又譬如生产系统要比一般管理人员的优先级要高;
·根据不同事件的影响范围划分,譬如服务器、数据库等后台问题要比PC、打印机等前台问题的影响范围要大,那么其优先级就高;
·根据当前可用的资源条件划分,譬如解决一个问题的资源目前齐备时,它的优先级就可以设置较高;而对于一些资源条件不具备的问题,就应适当推后解决的时间,这符合资源的优化利用原则。


比如说,网络中心有一台出故障的交换机上连接着公司的销售部邮件服务器、库存数据库服务器、人力资源服务器,那么这一事故将直接影响到公司内关键部门的正常生产,应该属于紧急一级,如果不尽快处理将发生一级生产事故。


如何降低服务成本?
始终困扰企业的问题是IT服务成本,企业投入大量的资金采购IT软硬件,同时也为这些系统的维护支付着高昂的成本,如何切实降低这些成本呢?


借助专业技术,IT部门能够有效控制服务成本,提高服务水平和客户满意度。日常管理数据的统计分析能够为网络、系统的运维提供有力的数据支持。例如:通过分析设备的日常运维状况,对系统备份方案重新进行了评估,并在原有方案基础上有效降低了投资成本,同时各项业务的正常开展提供了有效的技术支持,降低了运营成本。


通过服务级别管理来降低成本。服务级别管理的目标是理清IT部门与客户之间有关IT服务级别协议(SLA),使其可优化IT服务成本,为用户所接受并付诸实施。


通过服务级别管理(SLM),收集客户需求、IT服务组织可提供的设施、以及可用的财务资源等各种信息,针对提供给客户的特定需求,以客户为中心定制最合理的服务方案。服务级别管理是基于客户需求建立服务,是需求拉动的,而非单纯基于现有技术供应驱动的。由于服务级别管理通过服务内容定位和管理,服务的实施和开展以及服务运作的管理等几方面将企业业务和IT服务密切的结合起来,使得IT系统最大程度满足业务的需要,从而避免了重复投资和资源浪费,降低了IT系统的维护成本。


SLM是服务支持和服务交付的关键,由于它依赖于其它流程的存在性,有效性及运行效率,它不可孤立存在,一个缺乏基础支持流程的SLA是没有意义的,缺乏支持的SLA就失去了承认其内容的基础。因此它的实现是建立在前面基础流程完善的基础之上。


如何形成可积累并可复用的经验?
突发事件管理可以帮助IT部门更加系统、快速地处理突发事件,但是只是规范处理过程,以尽快恢复故障。好比是急诊抢救,治标不治本。要使突发事件管理有质的提高,治标也治本,就必须实现问题的统一管理,经验的共同分享。


利用配置参数,加强基础数据的统一管理。以往,各类信息数据分散管理,没有统一标准。从机构信息到设备、合同情况;从网络、主机、网点配置到二级行各项信息,这些资料散而不全,人们常常无法很快地在第一时间找到自己所要的数据,不仅影响问题处理,还直接影响了管理水平;同时,网点打电话时,每次还要反复提供自己机构的主要信息,维护效率也同时降低。对于一项信息多处记录,在信息变更时,也会造成信息错误,影响甚大。运用ITSM中提供的配置项管理后,对各类信息进行整合录入,摸清了家底,同时加强了基础设施的管理,从系统、网络、设备、机构、合同、软件等,各类信息一应俱全,为有关领导对信息的查阅提供了一个较为全面及时的途径,也方便了有关人员对信息的及时掌握。维护人员也能在接到电话的第一时间,对该网点的机构编码、电话、设备配置、所属机构、地址等各类信息及时掌握,便于问题及时处理。


通过专人分析整理问题知识库,迅速沉淀经验和知识。坚持每天记录发生的问题,隔段时间再进行归纳总结和分类,确实工作量很大,但是从长远来看,一个优秀的知识库才是一劳永逸的方法,把以前发生的众多问题进行归纳总结,找出规律对号入座,同时总结经验不断丰富。其实无论什么公司,员工对IT的需求都有一定的共性。只处理不分析、不总结、不改进的IT永远只能是重复劳动。而如果通过引入问题管理,建立一个知识库,将众多问题归纳总结,重要的是找出深层次的原因,包括现实的原因和潜在的原因。当发现更好的或新的应急措施时,及时记录更新在系统之中。这样不仅提高了效率,而且当经验积累到一定程度以后,将大大减少日常的工作量,IT服务人员的工作将变得越来越轻松。这时的“救火队”,就演变成“消防队”,从而做到主动预防,而不再是被动应付。


加强公司各部门之间知识管理,提高运维效率。企业IT运行维护工作中经常有这样一种现象,同样的问题出现多次,若不注意沟通,每个人都会化很多时间来处理同样的问题,知识与技能可能只停留在每个人的头脑中,达不到知识共享;技术人员对于出现的问题忙于解决,而无暇去分析故障及问题产生的原因、或进一步优化的方法,只是被动地进行维护。随着业务发展,应用系统增多,工作量加剧,维护质量呈下降趋势。更严重的是,遇到晚上进行日终处理,值班人员碰到无法解决的问题时,会在深更半夜四处打电话寻找其他技术人员支持。技术人员的辛苦与怨言可想而知。


通过知识管理降低人员流动带来的损失。另外,人员流动对运行维护工作也带来了很大的难题,产生巨大的压力。通过配置项管理中的知识库管理,为我们解决了以上的难题,技术人员将工作中碰到的问题进行归纳整理,录入到知识库中,通过知识的积累与共享,使得值班人员能很方便地找到一些共性问题的处理方法,不但加快了解决问题的时间,而且减少了二线人员的工作量。根据系统中提供的事件管理与问题管理,IT部门定期对ITSM中出现的呼叫问题进行归纳整理,提出优化解决的方案,从而从根本上消灭问题,大大地提高了维护质量,响应速度进一步加快,实施后,连部内岗位轮换也变得较为容易。


通过知识管理实现局部向全员主动管理的转变。如果说以前的IT服务还是IT部门一家的专利,那么实现了充分的知识共享和管理之后,IT部门逐渐将成熟的、通用的经验公布于企业的公共平台,就可以将部分有固定解决方法的常见问题分派给各部门自行消化解决。这样就从另一方面缓解了IT部门人力资源紧张的问题,并逐渐形成公司内部全员主动积极维护IT系统的良好文化,真正提高企业整体信息系统维护的水平。






页: [1]
查看完整版本: 【分享】“鹅卵石游戏”联想IT管理之道