[p=30,2,center]学习资料:IT运维管理社区专家讲堂直播300期视频回放
[p=30,2,center]
作者:CIO发展中心/首席方芳
IT运维是一次不得不展开的变革,这场变革即给企业IT运维人员带来机会也带来了极大的压力,人们对于新型IT运维管理模式建设的核心思想是什么?新型IT运维管理模式应该包括哪些内容?如何进行组织分工及考核管理?如何划分层次?等等还存在诸多困惑,鉴于中国光大银行在新型IT运维方面的宝贵经验,以及该单位负责人姜岩在该领域的成就和贡献,今天我们邀请他参与我们的微访谈与大家一起分享交流基于ITIL思想的IT运维经验。
IT运维的基础和目标
姜岩首先强调IT运维管理工作是要有基础的,即IT运维管理工作的基础是监控及操作管理,其中:1)监控是运维的"眼睛"与数据来源,对于监控的建设,应用以应用整体监控管理思路为基础,主要内容为识别要监控什么、如何监控、如何报警、如何分析等;2)操作标准化与自动化管理既是运维的基础,也是降低运维成本的有效手段;这里,监控工作不是简单的监控工具采购与安装,而且对于整个IT生产环境的充分认识,能够建立有效的监控模型,并且做到监控报警与监控数据分析的互相配合;操作标准化是操作自动化的基础,通过操作标准化,解决各类操作的控制问题,例如批作业、自动巡检、故障处置等等。
谈及有效的IT运维管理对于企业发展的重要性以及为何要建立新型IT运维管理模式,他指出:"如果一个企业的业务运行,非常依赖于IT系统,那么IT系统的稳定、安全、可靠运行就非常关键,这样,只有通过有效的IT运维管理工作,才能达到这一目标,所以IT运维管理对于这类企业的重要性也就不言而喻了。同时,IT系统也在快速发展,无论是复杂度、使用范围还是面临的运营压力,都是以月度为单位在快速变化,如果仍然采用非常传统的运行管理手段,难免不出现问题。"
针对于新型IT运维管理模式建设的核心思想这个问题,以及其划分层次,姜岩同样给详细的回答道:"新型IT运维管理模式建设的核心思想是"将IT运维管理工作,由非体系化的模式建设为体系化的管理模式",通过体系化的运维管理模式,将人员、经验、知识、工具及工作有效地整合在一起,起到互相促进的作用,同时也使得IT运维管理可量化、可衡量,为达到这一目标,建议新型IT运维管理模式应该划分为操作、控制、管理三个层次,其中:操作层是基础,主要管理目标是"各项操作、巡检的严格执行"、"记录操作结果、跟踪事件进程";控制层是运维的核心,主要管理目标是"处理各类故障、知识归类整理、各类规范修订、日常维护与控制",管理层是运维的灵魂,主要管理目标是"汇总各类信息、统筹分析与评估、解决重点问题、调配资源与流程。
新型IT运维管理模式除了核心思想值得关注,它所应该包括的内容也值得分享,进行组织分工及考核管理至关重要,对此,姜岩认为:"新型IT运维管理模式应该包括传统的应用、系统、操作、基础环境的管理,还应包括运维质量、监控、IT服务等必要的新增管理内容,在传统运维模式中,一般是以系统管理员为主,按照每个人分管几个系统的模式管理,这种模式,很难形成有效的IT运维管理标准、控制运维管理质量,通过新型IT运维管理模式的设置,并配套设定工作范畴、标准,配以对应的考核指标,才能逐步将手工作坊式的运维管理,转变为工业化、标准化的管理模式,详细内容及各工作模块之间的关系。"
IT运维管理的目标主要是:稳定运行、全面控制、资源管理、标准服务,达到这些目标及其子目标,才能保证生产系统的稳定、可持续运行。其中:稳定运行应该包括:应用整体监控、事件处置管理、知识维护使用、变更发布管理等内容;全面控制应该包括:操作自动控制、安装规范控制、巡检全程控制、配置信息控制;资源管理应该包括:设备资源管理、资源性能分析、容量总体规划、数据资源管理;标准服务应该包括:运维服务标准化、技术规范体系化、运维架构规范化、制度体系层次化。
ITIL管理与IT运维的微妙关系
据调查很多企业CIO认为有效的减少IT运维成本一个主要的手段就是企业进行虚拟化,那么虚拟化以后,ITIL管理中需要哪些变化?姜岩认为,ITIL的基本管理思路不会有太大的变化,但是具体的运维操作手段上会有一定的变化,例如资源的分配与管理、监控预警等等。
那么IT运维管理的建设,是否需要通过进行必要的ITIL项目建设来完成?"IT运维管理的建设,是需要通过一定的ITIL项目建设来完成,但是ITIL项目建设,不简单等同于上ITIL软件、工单流转等等,而是应该以基础技术为核心,进行必要的工作流程调整,同时更重要的是将各类标准化内容进行落地,也就是说,流程是为了在运维工作中更好的落实技术,通过流程将技术规范化、标准化,将一些工作自动化。"
姜岩进一步透露,在实施ITIL之后,所有的岗位都是新的,例如系统管理员,虽然还称为系统管理员,但其工作内容、标准、职责等,是有较大变化的,另外是新增了一些岗位,例如监控管理、运维质量、运维经理等等,当然是否一定要包括这些岗位,要根据一个数据中心的规模和投入而定了。
新型的IT运维管理模式,进行标准化、规范化的工作很重要,对此姜岩也谈到:"新型IT运维管理模式的核心就是在操作、控制及管理方面着手进行标准化工作,由此才能将手工作坊模式的运维管理,逐步转变为工业标准化的模式,例如,在故障处置方面进行标准化,需要考虑将面对哪类故障、如何判断、如何授权、如何处置、如何协调等等问题,然后将其进行标准化梳理。另外,在操作标准化、安装规范等方面,都是需要做细致的工作。"
除此之外,姜岩还为我们描述了IT运维与业务达到很好的融合的过程,"我们也是从传统运维->冲动实施ITIL->回顾反思->自主优化建设,这样一条路走过来的,您提到的与实际工作结合、人员工作分工及职责,确实是我们在3年前也非常困惑的问题,目前应该算相对的清楚一些了,不过确实不是一两句话能说的清楚,不过一个原则就是,自己先动手做,认真想,总有办法。我准备了一个IT运维的资料,要是方便,您可以先下载看看,然后我们就其中的问题,做深入探讨。"
同时,他强调,不同行业的IT运维策略和管理模式是有些区别的,大型组织运维和中小型运维的运作模式也有些不同。可能在IT运维工作时存在一些难点,但最终都会得到很好的解决。"不同行业、不同规模的企业,IT运维管理的策略与模式会有差异,但本质与核心内容无差异,差异主要体现在:1)重点目标不一致:例如某些行业是交易响应及质量为优先保障目标、有些行业是以数据的全生命周期管理为重点,等等;2)投入成本不一致:IT运维管理的落实,确实要考虑企业的投入承受能力,对应不同的投入,重点落实的程度和范围将有所不同,采购及建设的模式也不一致;通常运维管理工作中,最大的难点是如何获得优质的技术支持与能力,可能的解决方案是:外包合作、内部促进、横向交流等。"
"内外兼修"提升运维效能
当前在企业新业务层出不穷的状况下,运维成本自然会增高,怎样有效降低运营成本不可忽视,对此,姜言认为:"运维成本会提高,但通过规范化、标准化、自动化IT运维手段,能够在一定程度上降低运维成本,另外,运维成本到底会不会高,高到什么程度,这与企业对于IT运维的要求是息息相关的,例如,要求关键业务系统24小时服务,每年的可用率要达到99.99%,那么成本一定是高的,否则不可能做到。由于很多公司还是在搞"基础建设"的阶段,企业大把的钱投向了设备、系统、项目开发等等,运维方面的人才和经验积累少。银行在7、8年以前,也是这样的状态,现在为什么运维成了关键,是因为银行承受不起系统故障造成的损失,我们的主管行长对我们说过一句话,他说,在我了解了运维工作以后我明白了,唯一能让我们这个行离开停业、离开破产的,就是你们信息部门。"
据悉,为了降低运营成本,越来越多主张IT部门转型和外包,是否IT外包行业马上将迎来一波大的发展机遇?企业IT运维是依靠企业内部还是选择外包,姜言认为这需要根据不同企业特点、规模、投入以及管理目标来决定,同时,外包是可以在不同层面、不同范围、不同规模进行,但,外包的策略要明确,例如:是简单的人力外包,还是某项具体工作的外包,或者进而是某一运维领域整体服务的外包,具体来说是:1)人力外包:通过外包解决人手问题,但需要自己规划工作;2)工作外包:通过外包解决某项具体工作的问题,例如小型机的巡检、变更、故障处理等;3)服务外包:通过外包将某块具体运维业务领域进行提升,例如监控管理与服务等;
姜岩用自己经历过的真实案例说明推动IT运维管理外部机遇真的很重要。"2004年,我们开始着手进行IT运维建设,打算以监控、操作自动化为基础,因为这块问题非常突出,也非常急迫,写了计划上报到行里,结论是可以研究,但目前没有经费。2004年底,项目却因为一次故障有了转机。当时一个贵宾用我们的卡消费,结果失败,贵宾联系了行里高层,大家都不清楚原因,逐层查询,最后找到我们,当时是周末,我恰好在外面培训数据库,返回行里检查,卡系统并没问题,之道查询2个多小时才找到原因,原来是当地分行的前置系统主机因电源故障宕机了,于是我们借此写了份详细的分析报告以及解决方案,致使项目顺利启动,因此,要想推动IT运维管理建设,有时候要靠外部机会。"
任何企业都应该希望IT系统可靠运行,IT系统已经成为企业正常运转必不可少的力量例如金融、电信、电商等等,要是没了IT系统,是完全不能运营的,没了强有力的IT系统创新能力,也完全丧失了竞争力。但不同企业对于IT的依赖程度、认识程度不同,同时企业资金投入等原因影响到IT运维的建设。
|