[p=30,2,center]学习资料:IT运维管理社区专家讲堂直播300期视频回放
出处:CIO发展中心
越来越丰富的用户体验让商业社会节奏不停地加速,给企业的IT运维带来诸多困扰和挑战,IT系统的运行维护让CIO和IT部门不堪重负。很多IT运维的自动化做得还不够好,IT运行越来越复杂,也越来越难管理。
访谈嘉宾:
中石油信息技术服务中心原副主任廖善榕
民生证券技术总监、天津大学管理学博士,高级工程师颜阳
维斯塔斯风电亚太区信息总监牛晓峰
在互联网革命爆发近20年后的今天,随着云计算、移动互联网等新技术的出现,越来越丰富的用户体验让商业社会节奏不停地加速,给企业的IT运维带来诸多困扰和挑战,IT系统的运行维护让CIO和IT部门不堪重负。很多IT运维的自动化做得还不够好,IT运行越来越复杂,也越来越难管理。
中石油信息技术服务中心原副主任廖善榕
有专家分析未来的IT运维管理可以用三个多样化来概括:一是网络设备多样化,二是网络组网方式多样化,三是网络应用多样化。再加上企业的新业务模式不断出现,使得企业IT运维工作的压力越来越大。
健全坚实的IT运维管理是企业的基石
所谓IT运维管理,是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如硬软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。
民生证券技术总监、天津大学管理学博士,高级工程师颜阳
运维是保证企业各种信息系统正常运行、用户可以顺利使用这些系统的必要条件,是信息系统发挥作用的基础保障。通过运维,不断调优,信息系统才有生命力。在信息系统的生命周期中,运维是系统价值体现阶段,也是时间跨度最大的阶段。
瘳善榕指出,运维队伍通常分为一、二、三线。一线要求一天24小时值班,主要负责基础设施、应用系统的监控和服务热线支持服务,以及简单的故障排除。二线主要负责疑难故障排除,基础设施、应用系统调优,IT资产管理等。二线解决不了的问题,请求三线支援。三线队伍由内部专家和外部供应商组成。
在牛晓峰看来运维从CEO/CFO角度看实际是服务管理、财务管理、人员管理等。从技术角度看核心是"服务管理",这些流程和职能又被归结为两大流程组,即"服务提供"组和"服务支持"组。
只有有了健全坚实的基础,才能使企业有良性的发展,这是浅显的道理,但实施过程中却有一定的误区和盲点。
IT运维容易存在的误区和盲点
IT运维之于企业的重要性毋庸置疑,但是大多数企业对运维还存在一些误区和盲点,颜阳认为主要表现在人员、规范、技术手段、集成度四个方面:
维斯塔斯风电亚太区信息总监牛晓峰
第一,一般认为运维人员的技术水平要求不需要像开发人员那么高,只要责任心强就可以了。
第二,规范停留在传统的制度与流程上,换句话说还是用刀叉类的"冷兵器";有些虽然也在尝试ITIL落地,ISO20000贯标,但多是追求形式;
第三,技术手段:运而不维;监而不控的现象比较多;
第四,集成度:服务器、存储、网络环境、中间件、应用系统的监控分离。
廖善榕强调,不是信息系统建好了,只要开着机就会一直运行下去。实际上,IT系统和所有其他系统一样,总是或多或少存在这样那样的bug、缺陷,说不定哪天遇到哪个应用场景,bug、缺陷就发作了。此外,系统还可能遇到断电、断网、恶意攻击、操作失误等天灾人祸。这些都需要密切监视,及时发现问题并采取正确措施。IT运维技术含量很高。运维中遇到的问题,要及时处理不能拖沓,处理问题时要尽量减少对其他系统、其他用户的影响。与信息系统建设相比,运维人员需要的知识面更广,经验更丰富。
廖善榕还指出,运维费用来源与核算也是困扰企业的一大问题。很多企业,一次性的信息系统建设投资很难下决心,但一旦决定了,投资也就有下落了。而运维费用是持续不断的,企业效益好时还好;经济状况不好时就更不好办了。此外,运维遇到的问题,突发性、随机性很强,如何核算也是个难题。
牛晓峰则认为,目前运维在企业中的误区和盲点主要表现在:重建设、重项目、轻运维、缺少核心业务分类,有限资源被无效分散;忽视流程细化衔接,造成部门协作拖沓,低效,成本高昂;运维人员职业发展,运维体系不稳定;忽略规划阶段、建设阶段运维团队的参与,后期管理成本上升;依赖管理工具对运维进行不断优化;服务设计和交付缺乏成本收集、分析,导致服务成本不透明,以致无法使用通用工具(比如六西格玛、精益等)持续优化成本或提高服务;客户满意度(两种客户:管理者,最终用户),与SLA的关系,不能不计成本无限大的提高满意度,也不能忽略客户只考虑成本;应用实施缺乏整体规划,导致运维要配备不同的资源来支持不同应用,最终运维团队被迫庞大。
随着IT建设的大规模实施完成,很多企业开始进入运维主导的优化阶段,这个阶段强调服务等级,绩效以及成本控制。企业运维涉及业务支持的连续性、稳定性,对于成熟公司至关重要。针对种种误区和盲点,企业应适当调节IT运维的管理办法。做到人员队伍梯队化;培训常规化;贯标持续化;运维自动化(含统一监控);监控闭环化(监视、事件驱动、自动与人工处理相结合、结果再反馈到监控系统中,全程审计)。
IT运维所需费用及一般标准
IT运维需要以下几类费用:
一是与人员有关的费用,包括工资、福利、办公费用、工作场地费用、交通差旅费用、培训费用等。人员包括技术人员和必要的管理人员。
二是与软硬件设备有关的费用,包括硬件维护费、软件升级服务费以及新增软硬件购置费用。
三是运行费用,如电费、水费、信道链路租用费等。
四是其它费用,如租赁费,保险费,外包顾问费,办公场地费等。
这些费用,除了维持当前的IT系统运行外,还应考虑维持运维单位再生产的费用。如果是外包,还需包括法律规定的相应税费等。
费用标准由SLA确定,不同的服务级别,费用标准也不同。人员费用标准,与对人员知识技能的要求、承担的责任有关,与所在的企业、所处的地区也有关。硬件维护费、软件升级服务费与要求的服务内容、响应时间密切相关。运行费用一般都是按量计算。一般应用系统的维护费用为合同价的10-15%不等。设备的费用差异较大。
牛晓峰表示,在成熟市场里,CIO整个信息的IT预算66%是花在运维上面。在整个IT的预算里,花在新应用发展上只有21%,真正花在运营上面有79%,新兴市场的在过去15年里,花在IT上的钱可能跟这个是不一致的,如何不一致呢?中国的客户在过去十几年来花在新应用开发上有55-60%,在运营上大概花了40%。
廖善榕特别介绍了IT运维监控系统方面经验,HP、IBM等都有成熟的商品化运维监控软件,功能全价格贵,但具体到某一个企业,很多功能利用率很低。如果要买,也要根据自己的具体情况选择需要的模块,没必要全买。国内也有一些商品化的软件,功能不那么全,但比较实用。关键还是要针对自己的具体情况,想清楚要什么,选一个比较接近需求的产品,而且最好有开发接口,然后在此基础上进行定制。
当前,云计算是趋势,现在已经到了化云为雨的阶段。企业推进云计算,需要进行四化:集中化(管理、业务、技术)、虚拟化、资源的池化、云化。四个阶段不宜一步到位。每一个阶段的推进,都要积累技术及管理经验。
云服务、虚拟化为我们带来了前所未有的自动化部署机会,通过自动化部署策略和流程,既可以及时交付,又可以无人值守,降低成本。IT可以专注于系统监控、调优从而完成转型。
同时IT管理工具的使用,自动化交付,让远程离岸交付上升到服务器甚至应用级别,可以有效降低费用。
如何将IT运维与企业业务总体规划相结合
运维计划是依据业务环境、愿景,公司组织结构,外部技术变化等因素,结合IT部门的自身能力分析和财务要求制定的。财务指标与服务指标的达成,整体绩效的衡量还是以两者平衡并与管理层达成一致。
在信息化建设过程中,技术与业务、管理总是有一个协同的问题。在许多IT组织中,敏捷开发已不是稀罕的行为,但将敏捷开发提升为整个IT组织的敏捷服务才是实现外延扩展的需求所致,最终能够解决协同的问题。因为许多组织并不一定拥有自己的开发团队,但是在实现信息化的过程中,作为信息资源的组织者和推动者,实现敏捷服务是突破困境的重要方法。
将IT组织进行组织再造,是实现服务转型的关键。传统的IT组织,基本是业务反应型,即按照业务需求驱动而行动的,与客户的需求具有相对的时延。越来越多的组织尤其是企业内部的IT组织(甲方)意识到,这样的组织形式需要进行变革。于是,IT组织正在演变为"传统的业务反应型+创新运营型"。IT组织的成员,基于新的IT技术,结合业务发展的需要主动挖掘客户需求,扮演产品经理的角色,提高客户的满意度,实现业务的增值。
IT运维与企业业务总体规划的结合问题。IT运维对保证企业业务正常运行很重要,但以往很少会纳入到业务总体规划中,这几年好一了些,企业对信息系统建设比较重视了,在规划时会提出一些要求,会切分部分投资。在切分年度费用时,也会列入计划。平时要注意收集用户的申告、问题分析和处理情况,一方面形成知识库,指导后续的运维,或发布出去供用户参考,指导用户自服务,同时也为以后的信息系统改进、新项目立项作为储备。
不同规模的用户运维策略不同
企业的运维策略和模式不尽相同。从组织上来讲,小型组织中运行和维护基本为一体,就某些应用来讲,运行和维护不易分离的也会是这样的形式。企业信息化程度比较高的公司,团队的运维服务人员比较细化,例如按照ITIL的方式,设立了各个流程经理,分别掌控事件、变更、配置管理、服务台及灾备中心等。
大型组织的离岸支持中心是有效控制成本提高效率的最重要工具,同时客户自助式服务和服务自动化也是要关注的焦点。
大型企业关注费用、业务连续性和稳定的SLA;中小企业关注的是成本、效率、便捷。两者都面临保稳定的挑战即使预测可能出现问题和意外,不同的是大型企业更加复杂,普遍会实施大型IT管理监控系统;中小企业相对简单,应当加强流程、文档、人员培训,以勤补拙。
此外,不同行业的运维也不尽相同:制造业受众多数是内部用户,除了过程制造业,离散制造业一般可接受维护计划和协议内宕机。银行、证券等行业对连续性要求非常高,运维策略更关注可用性。
运维的难度也因企业的规模大小不同而有所区别:有些时候,比如大机的运维,比较封闭,用户基本处于撞大运的状况。出了问题也只有服务商才能解决。因此要从选型开始,选择与自己技术队伍的运维能力相匹配的系统,也就是从源头抓起。成熟市场CIO会把大量的钱花在运维上面。大型企业应该着力实现IT呼叫中心的大型化、专业化,中小企业应当关注适当使用外包,以避免维持众多昂贵的二、三线专家,并且通过文档、知识库建设尽量标准化服务流程,降低成本,提高效率。
运维工作的难点是如何解决好用户不规范的操作与系统可靠运行的矛盾、用户不断变化的需求与系统快速响应且稳定运行的矛盾、服务质量要求高与运维费用不足的矛盾。
IT运维系统的质量控制
针对IT系统的质量控制,如何将运维管理中遇到的各类结构性、基础性问题,通过技术规范、管理要求等形式,反馈到规划阶段,并在开发、测试等环节加以落实?
顔阳阐述了自己的观点:
第一,运维中要关注:海恩法则、墨菲法则以及扁鹊三兄弟。其中扁鹊是三兄弟中最出名的,原因是他能将濒临死亡的人救活。但扁鹊认为他们两个兄弟的医术都比他高,因为他们能够在病情初发时就能发现并治好;
第二,组织架构方面:建立纵横的架构组织--按职能的垂直线和按水平的流程经理和质量控制经理的;
第三,在建设阶段,运维人员提前参与,减小运维的边界;
第四,自动化运维、统一监控及自建的自动化测试团队(不会受制于人);
第五,ITIL落地,进行运维的服务化;
第六,确立SLA,要让相关方面清楚故障的量化,使得运维有的放矢,便于责权利的清晰化。
专门的服务交付部门,统一管理Transition,同时要设立控制点,以便于及时控制交付质量,比如交付文档数量,质量,交付培训,知识库,FAQ,应急预案,服务恢复,用户管理,供应商等等。
牛晓峰认为最重要的也恰恰是国内企业IT缺乏的是IT审计,这常常被认为没用和自找麻烦。IT审计对于有效控制流程缺陷,离散度有非常大的帮助,而且能够有效控制计划、开发、交付之间的缝隙,降低风险。
内部运维还是外包要看核心效益
目前部分运维工作实施外包维护已经为企业广泛采用,代维相对于自维而言成本更低,有利于运维成本的控制。但是,在实际中企业在决策外包范围和自维范围时,往往带有过多的主观意志。应用起来要么是外包项目太多,影响到公司自身维护人才的培养和维护水平的提高,要么是自维项目太多,运维主管部门和员工压力大、任务重、成本高,难以满足运维工作的全部需要。所以这方面还是要慎重决策。此外,云计算的成熟外包会增加,也需要综合考虑。
云技术是一个发展趋势。未来的IT服务将和现在的水、电、通信一样成为人们生活、工作的必需品,未来的IT服务模式,更多的走向SaaS,用户花钱买服务,或按时计费,或按量计费,较少关注服务是如何提供的。信息系统建设模式也更多的走向IT服务商通过市场调研,发现用户需求,开发出产品,供用户选用。生产方式变了,生产关系也要改变,服务商的运营模式变了,信息系统的运维模式也要变。即使是企业仅仅实现了IaaS,运维模式都和以前的烟筒模式不一样,基础设施由数据中心负责日常运维,资源监控、调配要由云平台负责,应用系统的配置、维护可能需要另外的队伍负责。
牛晓峰认为内维还是外维这个没有定论,要看企业的规模,应用复杂度,大型企业应当保留核心服务,外包非关键服务。企业IT运维究竟是内部队伍完成好,还是外包好,核心是效益,关键是质量、费用、风险的平衡。
具体考虑的因素包括:企业的规模、企业创新的需求与能力、企业发展战略和企业内部IT队伍能力等。企业规模大,IT应用多,本身就具备规模效应。如果企业内部IT队伍人数多、能力强、对企业业务熟悉、好沟通、对用户需求的响应快,服务好、费用低,何乐而不为呢!此外,如果企业业务创新能力强,需要信息系统随时配合,这些在正式发布前,往往还是敏感信息,如果有一支稳定的内部支持队伍,用起来更加得心应手。如果把开发IT应用作为企业业务发展的战略,那就更需要一支稳定的内部队伍。反之,如果企业规模小,IT力量薄弱,内部队伍成本太高,那就应选择外包。但是有两点必须说明:一是即使是内部队伍负责运维,也不是所有运维工作都由内部人员完成,有些内容还是可以选择外包,专门的事情需要专业的人干,任何人都不可能全能的;二是选择外包,也不是内部就不需要人对运维负责,还需要有人去选择、管理外包队伍和协调运维队伍与用户的关系等。特别是缺乏诚信的社会里,如何确保外包合同忠实履行、防止外部人员窃密、防止外包单位管理上带来的运行风险等都是一个难题。
IT的价值基本应该通过成本核算、利润中心、费用中心以及向用户收取相应费用体现出来,这样便于和业界同等水平公司横向比较,并能够与专业外包公司纵向比较。同时也有利于IT节约控制成本,优化流程。
在当前企业新业务层出不穷的状况下,运维的成本是否会不断提高?有什么样的策略可以有效地降低运维成本?牛晓峰认为,运维成本总数量上应该增加,但占营业额和整体费用的比例应当逐步降低。服务前置,客户服务自动化,精细透明的成本核算与控制,流程优化,组织优化,横向行业水平对比,尽可能离岸交付,对于大型企业应该考虑实施CMMI/ISO20000以达到更高的优化水平。维斯塔斯风电在菲律宾有140人的全球离岸交付中心,始终以服务为中心,监控每用户平均成本,每用户凭证数量等指标。
IT运维的好与坏,谁说了算
企业IT运维的整体目标SLA与服务管理KPI两者既矛盾又相互促进,依据SLA定KPI,有各种评价运维好坏的方法,但CEO/CFO一般关心SLA和财务指标,比如IT费用占比,运维费用占比等国际通用指标。
CIO层面关注的就比较技术,比如关键应用的SLA,呼叫中心KPI,供应商绩效和异常处理等。经理、总监层面则关注运维具体指标,具体费用就很细了。
一般来讲越具体的越好达到,越抽象的越难达成,比如费用占比,同业横向指标等等。具体的运营级相对容易,但CEO\CFO高管一般不关心
企业评估IT运维的KPI,通常有用户满意度、系统正常工作时间比率等。评价IT服务的好坏,依据是SLA。
企业评估IT运维的KPI,通常有用户满意度、系统正常工作时间比率等。评价IT服务的好坏,依据是SLA。谁说了算,当然是决定运维部门生存的那些人、衣食父母,或者说服务合同的甲方。具体说就是老总级的人比如CEO/CFO,以及某些重要业务部门的高管。IT运维的评估、考核和所有的考核一样,指标不要太多,但要抓住要害,要量化,要能落地,还要和奖惩挂钩。
|