×

微信扫一扫,快捷登录!

标签: 暂无标签
作者:杨健 汪一…    来源:国土资源信息化
class=news_Intro>上海市规划和国土资源信息化运维团队从专注技术向运维管理转变。以优质服务,面向业务、面向客户来开展IT运维工作。  

[  /serviceit/UploadFiles_4016/201006/2010060911044656.jpg]

[/url]

引言


上海市房屋土地资源信息中心〔以下简称中心)肩负着全上海市规划国土局和住房保障局电子政务信息系统建设的重任,其服务范围包括规土和房管两局机关用户以及下属事业单位、区县两局和交易中心两级用户、区县下属房地办土地所二级用户以及信息中心内部科室。服务工作除了信息系统运维外还包括其主干网建设与运行维护的使命。中心致力于提供安全、高效、快捷的IT运维。近年来,随着市局信息化建设的深入,各种业务管理逐步信息化,计算机机房设备、网络基础设施,大型主机、服务器、客户端等硬件平台,政务应用系统、核心数据库、应用服务器、中间件等软件平台日益复杂,服务的用户(包括应用使用单位、银行查询、行业企业用户、市民百姓等)越来越多,如何维护好日益增多的网络和系统等各类设备,保证各个应用系统安全稳定地运行,为用户提供良好的服务并及时解决出现的问题和故障,做到网络和用户之所及,管理和服务之所及,确实是保障日常业务正常稳定运行的关键所在。  
为了满足中心业务的需求,提升管理水平,IT运维就需要上升到更高的IT运维管理体系的层面。IT运维管理体系有两条主线,其一是针对客户的,其二是针对用户的。客户的要求就是IT运维服务的目标,也就是SLA(服务级别管理),具体可分解成运维团队管理、能力管理、可用性管理、业务连续性管理和财务管理,专业地讲也叫作IT服务交付;用户是指IT运维服务的服务对象,服务核心就是拥有服务台和事故管理,具体可分解成问题管理、变更管理、发布管理和配置管理,专业地讲也叫作IT服务支持。  

2、IT运维服务的目标


IT运维服务的目标是整个运维工作的重点,只有确定了目标才能开展好工作。作为一个技术人员往往乐于沉浸在具体的技术工作中,很少关注业务的发展需要。而作为一个运维团队则首先要将自己的工作目标与业务目标紧密相联,变被动支持为主动服务。  
运维服务的作用从中心工作重点来讲是需要保障数据的安全性,保障业务的连续性。简而言之就是——确保系统不瘫、数据不丢。我们建立了上海规划和国土系统运维团队的运维服务方针和服务口号,明确了工作方针、目标和工作宗旨,有效凝聚了团队的工作热情。  
运维服务方针是:“一个中心,两个基本点:以服务为中心,确保运行安全、信息安全”。  
运维服务口号为:“安全、专业、规范、高效”。  
运维服务目标是:  
(1)系统无重大故障,保持高可用性  
(2)始终保持足够的能力余量,以不变应万变  
(3)建立业务连续性计划并定期演练  
(4)确保信息安全  
为了能够更准确的说明运维目标,结合上海规划和国土系统的目前实际情况,我们提出了三年内运维目标量化的指标:  
高可用性:目前为99.9%  
足够的能力余量:  
电力:利用率低于60%  
存储:15K转速FC磁盘的SAN存储利用率低于70%,7.2K转速SATA磁盘的SAN存储利用率低于50%;  
核心小型机:CPU利用率低于50%,SAN和网络带宽利用率低于40%;  
内外网虚拟机:始终分别保持有三台高性能计算机(目前参考DELL R71O:4个E5520的CPU,72G内存)冗余。  
网络:流量利用率低于50%  
建立应用级灾备中心,切换时间小于8小时,通过BS25777认证  
通过等级保护三级测评,通过ISO27001认证  
同时,为了规范服务内容,提高服务质量,经过和服务用户的深入讨论,我们进一步的建立了SLA(服务级别管理)。  
在SLA中,我们定义了从客户角度更详细的指标。如:服务台热线支持服务,服务时间5天*9小时、每个电话接通小于10秒、客户满意度高于92%,等等。这样就把概要性的工作目标进一步展开为可实际执行和考核的工作内容。限于篇幅,对于中心其他SLA要求就不做介绍了。  

3、IT运维服务的交付


根据SLA的要求,运维服务交付进一步展开为运维组织管理、能力管理、可用性管理、业务连续性管理和财务管理。  
运维组织管理是一个运维技术人员选聘、考核、培训的流程。根据SLA的要求,以及数据中心的技术架构,我们制定了组织结构,明确了各个岗位的职责和要求;同时根据目前的人员配备计划,制定了人员选聘、外包服务人员的要求,以及人员的培训计划。经过三年的运作,搭建完成了组织完善、岗位明确的组织体系,并且拥有了一支工作规范、技术过硬、业务精通的技术队伍,有效地支持了运维服务工作。  
能力管理是一个对IT资源的服务能力进行有效监控和管理的流程,通过监测工具对服务资源进行监测,然后提取监测数据进行分析,来掌握当前资源的服务能力,及时地调整对象的配置情况。除此以外,它还可以预测未来所能提供的服务。  

[  /serviceit/UploadFiles_4016/201006/20100609110459285.jpg][/url]

color=#000000>主要内容有:根据服务级别协议中定义要求的能力服务条款,制定资源服务对象的监测范围和指标,以及监测周期、阀值、方法和技术等;根据能力监测数据,进行能力分析,编制报表;根据能力运行周报,提出服务改善计划;根据用户要求进行能力现状调查,收集服务级别协议、事件问题记录、配置项等的资源服务对象的监测数据;分析现有能力与当前服务级别和预计要求之间的差距,并提出改善技术建议给用户。  
目前,上海规划和国土系统已经建立了全面的监控系统,涵盖了机房的空调、电力、消防、门禁、摄像,小型机、数据库、存储、网络、PC服务器、Vmware虚拟机、内外网同步、磁带备份等所有的内容。同时,在日常工作中,每周生成一份近百页的设备能力报告,对小型机、网络、数据库、存储等各系统性能进行全面分析,从而可以判断系统能力变化趋势,及时发现系统隐患,采取纠正措施。此外,我们还制定了全年的能力报告,分析全年的系统性能信息,从而可以科学的决策下一年设备采购计划。  
可用性计划是一个对IT资源的可用性进行有效监控和管理的流程,它建立和维护与业务需求相一致的IT服务可用性计划,在明确的业务和用户需求的基础上制定的IT服务可用性计划,最大化地支持业务的发展和用户的工作,符合组织的最大利益。  除了业务需求之外,还需要明确IT服务的目标,在可用性目标的制订中,应涉及可用性、可靠性、可维持性等方面。应考虑从正常状态到发生重要服务损失的所有情况。同时应该为已知的数据量、用户量的增减、预期的工作量高峰和低谷以及其它已知的将来的变更做出计划。应结合业务影响性分析结果和重要IT资源和应用优先级来进行可用性设计。  
在制定可用性计划的过程中,我们充分考虑未来的业务需求及计划,并和业务部门进行了深入的探讨。  

[  /serviceit/UploadFiles_4016/201006/20100609110500607.jpg][/url]
在运维队伍中,可用性经理负责对IT服务可用性计划定期维护、及时更新,保证计划维持在有效状态,以指导IT服务可用性管理和改进。  
style="TEXT-INDENT: 2em; LINE-HEIGHT: 30px">目前,我们利用已建立的监控系统,建立了重要应用系统的可用性报告,根据该报告和该应用系统的可用性要求(如工作日、工作时间内99.9%的可用性),制定了下一阶段的系统改进计划,全面保证应用系统的高可用性。  
业务连续性管理是一个对IT资源的业务连续性进行有效管理的流程。它为了确保重大灾害与意外事件发生时,上海市房屋土地资源信息中心运维团队的IT运维服务能够在既定的要求时限内恢复正常运作,从而减少运营风险、降低社会影响。  


[  /serviceit/UploadFiles_4016/201006/20100609110500733.jpg]

[/url]


业务影响分析:我们依据包括用户需求、社会影响、内部管理重要度、期望值与恢复策略等在内的各要素,进行业务影响分析(BIA)并制定《关键业务影响分析表》。该表反映了可能导致上海市房屋土地资源信息中心运维中断的重大影响项目、伤害属性、严重等级、中断最大可忍受时限等数据。  
IT服务连续性规划:根据《关键业务影响分析表》协调我们制定《关键业务恢复计划表》,经过专家评审后作为当发生重大灾难时的执行依据。然后依据《关键业务恢复计划表》及《关键业务影响分析表》来规划制定《灾难恢复计划》,并将其作为系统恢复作业的依据,确保该系统执行恢复作业的有效性。各系统灾难恢复计划的规划与执行若遇有资源冲突,应交由高层决定其优先级分配次序,并在《关键业务恢复计划表》中予以说明。  

IT服务连续性计划的实施与测试:


《关键业务恢复计划表》中相关系统的灾难恢复计划应同时进行测试及演练。  
测试后依照测试结果修正《关键业务恢复计划表》和《灾难恢复计划》,并提交《测试记录表》。测试结果与修正后的《关键业务恢复计划表》送交审查。  
测试失败或部分失效,应立即检讨并提出纠正及改善计划,或再进行测试予以确认。  
《关键业务恢复计划表》经核准后,对所有业务相关人员进行培训了,且每年实施一次对关键业务系统的演练,以便在发生重大事件时能正确使用该计划,所有的演练均保留纪录,形成《灾难测试记录表》。  
目前,我们已经对内外网分别制定了全套的数据级业务连接性文档,并进行了数据级的业务连续性计划演练。以后每年将演练一次,同时,我们计划逐步把规划和国土系统的灾备从数据级提高到应用级。  
IT财务管理流程主要包括预算、核算两个子流程。  
预算子流程主要包括在提供IT服务前对有关成本开支所做的预测和估算。  
核算子流程主要包括针对IT运维服务中产生的费用成本进行核算、计量和报告等活动。  
目前,我们根据财政局的相关规定,结合预算子流程,每年科学、合理的申报预算,对于预算的执行,我们根据核算子流程,对每一笔费用进行全过程跟踪,包括如项目立项、招标、评标、合同签订、分期付款、设备到货、固定资产形成等各个环节。因此在财务审计时,也得到了有关方面的好评。同时,关键节点集体决策、关键信息内部透明,对反腐倡廉也带来了积极意义。  

4、IT运维服务的支持


IT运维服务支持是钊对应用系统的使用者,如市局人员、区县局用户等。服务台和事故管理是主要面对用户的服务功能和流程,其次根据任务性质分解为问题管理、变更管理、发布管理和配置管理等流程。  
服务台作为一个面对用户唯一受理的前台服务角色,不仅负责处理日常的事故、疑问和客户的咨询,同时还为其它活动和流程提供接口。这些活动和流程包括客户变更请求、维护合同、外包设备巡检、配置管理、可用性管理和持续性管理等各种内容。在运维体系中,我们制定了详细的呼叫响应时间、满意度反馈等服务台工作指标,从而能够量化的对每个服务台人员进行考核,全面提高了服务质量。  
事故管理是对事故发生、诊断、到关闭的整个生命周期中实施管理,并定义支持运作事故管理流程相关的人员职责。  
目前我们建立了统一的服务台,并分成多个服务小组,通过IP电话对外提供统一的服务接口,但各小组服务于不同用户群,实现了“统一服务、支持分工”,从而提高了服务响应速度,减少服务处理时间。现阶段,服务台共有14人组成,分别针对PC桌面支持、应用系统支持、网络支持、后台支持等若干小组。  
[  /serviceit/UploadFiles_4016/201006/20100609110500637.jpg][/url]

color=#000000>事故的来源有用户的报障和请求、监控系统的告警。所有事故处理全部被记录在事故数据库中,并可以被建立到知识库中被重复利用。一线服务人员在接到报修电话后,只需要按照系统相关知识库的内容,按照步骤操作下去即可,因此,对于服务台的一线人员来说,不需要很高的技术水平,就可以进行维护支持。这样,对一线支持人员从业要求降低了,人员流动成本也就降低了。当一线服务人员不能解决时,就升级到二线维护人员,二线维护人员的分析过程、解决过程也全部记录在数据库中,一线人员通过学习以往事故处理记录就能提高业务支持水平。  
同时,我们针对一线和二线支持人员建立了绩效考核的指标,如欠缺或者是不正确的信息的数量和比例(错误分类的事故/错误优先级的事故/重分派的次数/信息记录不当的事故),超时的事故数量和比例。通过绩效考核,有力地调动了一线和二线支持人员的工作能动性,从根本上提高了IT服务质量。  

[  /serviceit/UploadFiles_4016/201006/20100609110500270.jpg][/url]
问题管理是对问题创建、故障根源诊断、到关闭的整个生命周期中实施问题管理,并定义支持运作问题管理流程相关的人员职责。  
问题的来源有没有解决的事故,或者多次重复的事故,但也有可能是不通过事故管理流程而直接创建问题。如,当IT技术支持人员进行趋势分析、发现问题时就会出现这种情况。  
[  /serviceit/UploadFiles_4016/201006/20100609110500630.jpg]
[/url]
问题的处理流程如下:问题分析员首先分析问题,发现原因,此时问题变为已知错误,然后,根据经验,采取临时解决方案或永久解决方案。  
变更管理是用于管理和控制信息中心内IT生产服务环境中发生的变更的流程。它是一个关键流程,通过规范的变更控制和管理,来减少或者消除变更对关键生产服务带来的风险和影响。  
变更管理流程起始于一个IT变更的请求,即RFC。变更请求可以由上海市房地资源信息中心的IT员工发起,也可以由信息中心的员工代表用户提交有关于IT系统的变更请求。RFC经过受理、分类,然后审批、评估,再经过安排日程和分发任务,接着是构建变更、实施变更/处理例外变更,最后进行关闭。关闭后的变更还会对质量定期进行后评估。  
发布流程是将一组通过测试验证后的变更导入实际生产环境的管理控制流程。发布流程要求发布的版本必须是经过测试或验证的。发布负责处理变更任务在技术与非技术方面的问题。通过发布流程的实施确保生产环境中变更得到有效控制,对IT服务产生最小影响,客户需求得到最大满足。  
发布流程管控的活动范围是发布管理员在收到发布通知单开始,最终到发布到生产环境成功或回退的过程。  
发布管理流程将在多方面对IT运维服务产生积极作用,具体表现在:  
为变更管理提供有效的过程管控:设计和实施有效的过程来发布和安装IT系统的变更,确保软件的变更是可追踪的和安全的;  
保证配置管理数据库的准确性:能够确认所有最终软件库中的软件正本是安全可靠的,并且在配置管理数据库中得到准确的更新;  
利用配置管理和变更管理中的流程控制,在实际运营环境中实施有效的软件的发布。  
配置管理起始于一个初始的规划和建设步骤,包括创建配置管理数据库(CMDB)。在初始化之后,该流程主要侧重于日常基础设施的鉴别和维护配置管理数据模型,以及维护配置数据。之后,该流程还负责产生配置信息的报表、定期进行审核。  
配置管理的数据是IT运维服务的基础数据,包括设备和服务(如小型机、数据库、网络等),以及其他关键要素(如防火墙的ACL等),它类似于我们房地产管理中的地、楼、房基础数据,它被用于其他流程,如事故、问题、变更和发布流程。  
为了更好的开展IT服务支持工作,我们利用IBM  Maxmio工具建立了所有的IT服务支持流程。在该工具中,我们记录了所有IT运维服务所涉及的要素,我们记录了所有的事故及其处理经过,记录了所有的问题及其处理经过,以及所有变更和变更任务。  
[  /serviceit/UploadFiles_4016/201006/20100609110500490.jpg]
[/url]

有一句话说,管理体系的实施,是从无效到有效,工具的使用,是从有效到高效。通过使用IBM

Maxmio工具,让我们更加高效的提供了IT运维服务。我们曾做过一个最终用户满意度调查,获得了98%的高分。


5现阶段主要收获


我们信息中心的IT运维已经从初始的侧重于网络建设管理、硬件等设备的维护,上升一到利用流程化、规范化的IT运维管理方法来降低运行成本、提高系统运行效率、提高客户满意度的高度。  
信息中心作为一个成熟的信息部门,有一套规范的工作流程,实施着一套IT运维工具,实现了知识沉淀、流程规范、服务流程持续优化、管理水平持续提升。除此之外,IT运维管理还为信息中心提供了全面、及时、可视化的系统报告,让信息中心领导来量化和评估整个信息系统运行的成熟度,进而为下一步决策提供支持。  
[  /serviceit/UploadFiles_4016/201006/20100609110501602.jpg]
[/url]

color=#000000>通过服务接口统一,实行“一站式服务”,服务全过程跟踪,面向用户提供“端到端的服务”。为我局信息化主管领导和信息中心领导、业务用户、中心工作人员带来诸多好处,具体体现在以下“三个放心”。  

5.1领导放心


第一,提升信息化的效益。“三分建设,七分管理”,信息化80%的效益体现在运行维护阶段。进一步规范了运维管理工作,降低IT运维成本,通过“用好信息系统”,更加有效地支持业务和提供公共服务,进一步推进业务工作公开、透明。  
第二,降低信息化的风险。通过开发与运维职责分离,对权限进行合理分配,避免“篡改数据、内外勾结”等风险发生,规避了系统性风险;通过规范化的操作,减少人为错误引发的风险;通过主动监控和趋势分析,预防事故的发生;通过对重大变更的审批和授权,减少了因变更不善导致的风险;通过制定应急预案,减少重大故障的影响。“IT运维”将不再是“黑箱”,将变得可管可控,降低了信息化带来的风险。  
第三,支持领导宏观决策。记录并分析运维过程中发生的各种故障及其解决方案,通过报表工具,展示全局视图,让领导了解运维工作各方面情况,支持领导宏观决策。  

5.2业务用户放心


提升服务质量和服务感知。IT运维管理服务台,面向用户,统一受理服务请求,实行“一站式服务”;通过持续优化服务流程和服务水平,提高了业务的用户满意度,进一步提升中心IT服务的整体形象。  

5.3、工作人员放心


第一,主动监控和预防故障发生。应用先进、实用、高效的工具软件,中心运维团队工作人员实时监控各系统的运行状态。当系统超过设定阀值自动报警时,通过系统间的关联分析,工作人员会主动发现并解决故障;并能通过趋势分析,寻找潜在故障,防患于未然,改变“被动救火”的局面,更加有效地防范故障和提高工作效率,有效地支持业务工作的顺利开展。  
第二,提升中心工作人员的专业化水平实行建设与运维的专业分工,通过在中心层面的资源整合,不断积累知识库,加强科室间工作人员问的沟通和协作,传承和共享成功经验,提升中心工作人员的专业化水平,促进信息化工作向专业化方向发展。  
通过全体运维工作人员的努力,在2009年年底,我们通过了ISO20000的国际认证,这标志着信息中心的运维工作达到了国际先进水平,同时通过认证也进一步反映信息中心的规范、安全、高效的服务管理工作水平,展示了信息中心运维工作的面向国际、不断发展的崭新面貌。  

6、IT运维服务的展望


针对的规划和国土系统IT运维方针,结合lT运维工作的不断发展,我们还需要继续努力,不断改进运维管理体系,提高更多、更好的IT运维服务主要包括以下三个方面:  
首先,进一步完善IT运维的目标包括在合理的成本范围内最大限度的保障业务运营,同时也能为业务管理创新提供必要的技术支持。并且,必须建立和保持一套可以持续改进的机制,是IT运维管理必要的手段。  
其次,按照IT运维管理理论、方法和标准,进一步规范IT运维管理过程中各个参与要素(人、流程、工具)的管理制度与工作流程,建立绩效考核评价体系,规范运维费用,实现精细化管理和提升信息化科学管理水平。  
最后,继续加强规划和国土系统可用性、能力和业务连接性等方面综合分析和研究,在信息中心整体的规划和部署下,不断完善系统的基础架构,全面提升系统可用性、可靠性和安全性,从而为上海规划和国土行业提供更快、更好的服务。  

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x




上一篇:《中国互联网状况》白皮书(全文)
下一篇:拨开迷雾,剖析IT服务管理各类认证
ITIL先锋

写了 322 篇文章,拥有财富 1697,被 3 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies
骨之精灵 发表于 2014-3-26 04:32:08
占坑编辑ing
青铜狂魔 发表于 2014-3-26 04:33:59
前排支持下
Powered by IT 运维管理
返回顶部