×

微信扫一扫,快捷登录!

ITIL工具实施项目成功案例分享  

客户简介       吉林银行成立于2007年10月10日,是经中国银行业监督管理委员批准,在长春市商业银行的基础上,吸收合并吉林市商业银行、辽源市城市信用社(后又吸收合并白山、通化、四平、松原等四个地区的城信社)而成立的股份有限公司。银行始终以股东利益最大化为根本任务,坚持依法、合规、稳健经营,努力构建专业化、集约化、科学化的运营模式和经营机制,实现效益、质量、规模协调发展。成立两年多来,坚持依法合规和稳健经营,稳步推进各项改革,不断加大产品和服务创新力度,经营规模不断扩大,服务明显改善,效益显著提升。
       吉林银行成立三年多来,坚持依法合规和稳健经营,稳步推进各项改革,不断加大产品和服务创新力度,经营规模不断扩大,服务明显改善,效益显著提升。截至2010年
末,资产规模达1478亿元,较成立时增长了187%;各项存款余额达1174亿元,较成立时增长了161%;各项贷款余额为790亿元,较成立时增长了148%;三年多累计实现净利润近28亿元,资产规模和盈利能力已跻身全国城商行前列。未来,吉林银行将按照吉林省委、省政府提出的“推动吉林银行跨区域发展和上市经营,努力进入全国城商行最前列”的要求,围绕打造一流股份制商业银行的目标,继续深化各项改革,推进创新,把吉林银行建设成为资本充足、内控严密、运营安全、服务优质、效益良好、创新能力和竞争能力强的现代金融企业,资产规模和盈利能力已跻身全国城商行前列。
项目背景
       该项目招标方北京智控美信信息技术有限公司(简称智控国际)作为吉林银行的IT外包运营服务方,在充分考虑吉林银行现状、未来发展趋势、未来经营发展定位等因素的情况后,要求服务商能够针对吉林银行的特点,在ITSM项目二期的基础上,建设一个具有前瞻性的、扩展性强的、业务适应能力强的ITSM系统平台,降低整体运维成本,提高运维质量。
       北京易丰远景电子科技有限公司(简称易丰远景或MUSINGTEC)在该次投标活动中,作为金融行业IT运维服务专家,将根据智控国际和吉林银行的运维特点,结合二期的实施成果,建设一个综合IT服务管理平台,IT集中监控平台,通过向IT运维管理人员提供实时的IT系统性能监控手段、可视化的监控界面、全面的IT服务管理、灵活的故障预警机制及可定制的性能分析报告,帮助智控国际和吉林银行的IT运维服务水平上升到新的高度。由于IT服务管理平台所管理的对象是银行最重要的IT资源,因此必须遵循“深入调研、明确需求、统筹规划、分步实施”的原则,以保证项目实施安全可靠。
       本着“集中管理、统一策略”的原则,数据中心部署了基于IBM 的ITSM平台工具,基本实现了我行数据中心的流程管理,业务系统、网络、主机、数据库的运行状态监控及系统自动化配置发现等功能,初步具备了基于ITIL v3数据中心运维功能,对于业务的平稳运行起到了重要的保障作用,随着吉林业务应用和整合平台的不断建成与完善,针对金融行业的应用系统成长也越来越快,支撑的业务种类越来越广泛,业务功能越来越复杂和关键,以致对信息系统的依赖程度和要求不断提高。感受到现有ITSM系统的不足,需要针对现有系统进一步的优化、改造和完善,更好的为业务部分服务。
解决方案

       图中红点标示的部分为本期新添加的模块。其他部分为一、二期实施部署的各个模块,从技术角度分为个子系统:
  • 监控子系统,包括网络、服务器、中间件、数据库、存储以及其他的一些数据源
  • 事件集中管理子系统
  • 统一呈现子系统;
  • 三期的重点以业务监控为主,目的是发现业务系统间的相互影响,发现瓶颈
       左侧灰色的流程平台正处于计划构建之中,业务服务分析管理,和存储管理在未来考虑。以下将分别对不同的子系统进行介绍和针对吉林银行的设计。
系统部署方案
业务系统监控管理
       因为一、二期项目的实施已经将基础架构的监控以及整体ITSM的运维流程管理进行实施和部署,包括事件管理、问题管理、配置管理和变更管理等,因此本期的重点目标是发现业务系统的瓶颈时间,详细实现功能如下所示:
  • 以及业务系统之间的在用户的访问行为发生前,系统应通过模拟交易系统及时呈现分析结果,并根据基线进行告警;
  • 能通过模拟交易追溯用户在不同时间点的操作过程,当系统用户有投诉行为产生,能通过模拟客户体验管理系统进行追溯,能够重现该用户在投诉点发生的同类操作的故障详细情形;
  • 提供每个应用系统中,各阶段耗时监控,如网络耗时、服务器耗时、客户端耗时等应用系统监控,采用IBM Robotic Response Time Agent,实现交易跟踪及用户体检监控
  • 对于整体业务运行的可视性:通过业务应用的纵览图,获取业务层面的运行状况
  • 自动化业务故障告警:基于事件的业务事件,自动启动业务故障处理,通知相关人员
  • 风险控制:通过纵览应用和业务的状态以及之间的关系,评估事件对业务的响应,并采取进一步的控制措施
监控的方法和途径
       我们通过四个途径实现对应用的全面监控:
  • 主动的探测客户体验:通过虚拟用户模仿客户访问应用,主动的探测应用的可用性,以及性能,目的是争取先于客户发现问题。
  • 被动的检查客户体验:通过监控真实的用户交易,获知用户的使用感受,目的是获知真实用户的使用情况。
       端到端交易跟踪:
  • 通过端到端的交易跟踪,目的是隔离问题发生的位置,缩短诊断问题时间。
       深入诊断问题根源:
  • 隔离问题之后的步骤是深入节点内部,分析问题根源,从而解决问题,避免重复发生。
       由于应用监控和系统资源监控共用ITM服务框架,因此架构图非常类似,服务端没有区别,探针端取决于具体的应用监控的方式设计,就目前而言,建议先从最外侧的主动探测,以及客户体验获取开始应用监控。
应用系统监控效果展示
       以下是吉林银行综合事件平台的设计视图示例,数据来源均是针对底层基础架构系统的监控告警事件和性能事件,通过将各种性能事件和告警事件之间的业务逻辑关系,我们在实施过程中,将其分类和过滤组合出一张吉林银行网上银行的监控管理视图,提供综合的监控视图,表达包含网络、主机、数据库、应用平台、业务应用等要素在内的全方位监控,满足统一运维的需要:

       下图是通过业务模拟监测,能够针对业务在那个阶段无法正常运行,直接快速报警,通过实时报警,运维人员即可对故障进行基本的定位,以便快速分析瓶颈并解决。
       通过点击对应的业务状态灯,可以直接进入对应的业务步骤故障分析页面,了解到业务中到底是因为Web server和中间件的连接故障?还是中间件和数据库的连接故障,同时Web Server、中间件和数据库所在的硬件设备出现问题;
       最后通过点击相关的业务步骤状态灯,可以直接进去事件管理页面,了解到具体的业务故障原因:

综合事件管理
       统一事件平台接收从网络、主机系统、数据库、应用平台、业务应用等等方面的监控以及接收第三方系统、内部管理功能产生的故障事件。利用统一事件平台对事件进行综合故障分析,以满足整体IT运维的需求。同时,综合事件平台处理的事件数据,将作为业务影响实时分析的数据基础,在很大程度上,综合事件平台采集数据的全面性,处理完成后数据的丰富性等,将决定业务监控的有效性。
       综合监控视图,不同专业子系统分类事件列表(开放平台和网络,上面为开放平台监控,下面是网络事件列表):
       本方案使用Tivoli Netcool这一业界优秀的事件管理平台作为吉林银行综合事件平台。Tivoli Netcool事件管理平台有以下的特点:
  • 灵活的体系结构,便于扩展
  • 全面的故障采集,超过300种数据源的探针支持,可以采集到各子系统的数据
  • 灵活的数据定义能力,便于进行子系统集成
  • 强大的事件压缩、过滤、关联分析、丰富能力,为综合事件平台的建设奠定技术基础,为用户提供真正的有效数据并可以快速适应用户需求变化
  • 流程化管理的支持,可以与运维流程结合,为运维流程提供技术支持,从而保障运维工作的高效性和规范性,最大限度的提高运维效率
  • 在事件处理能力上的优秀表现,使其能面对复杂的、大数据量应用环境

       对综合事件平台事件处理主要有以下方面:
  • 全面事件采集:具备较强的集成能力。
  • 事件的压缩能力:需要具备灵活的事件压缩机制和强大的事件压缩能力,以帮助运维人员集中在需要处理的事件上,而不会因为大量重复事件的屏幕显示而难以筛选真正需要处理的事件
  • 事件关联功能:例如故障恢复后,自动关联之前的故障告警;关联策略需要能灵活定制,并能实时执行并更新事件信息
  • 事件过滤功能:根据任意的组合关系定制事件过滤策略
  • 事件的分类功能:根据吉林银行的要求灵活定义和调整事件的分类,例如按照事件处理速度进行分类,按照部室职责
  • 事件丰富功能:原始的事件信息不能为事件管理提供足够的支持,需要能进行事件丰富,包括对相关的IT基础架构信息的丰富,管理信息的丰富,维护支持信息丰富等内容。通过事件丰富,可以帮助运维人员获得更多更直接的信息,而不是根据报警消息而查阅相关文档或系统,减少运维人员故障定位和故障处理时间。同时,事件丰富的内容,也为业务、应用、管理岗位等的分类和相应的视图定制奠定基础。丰富源可能是CMDB数据,外部应用系统,或者专门面向本运维系统开发的辅助运维数据库ODB等。通过独立的策略分析引擎,实时地抽取外部丰富源数据,提供有意义的业务分析结果,是此功能的关键内容。
  • 事件流程化处理功能,如事件升级功能,提供事件确认、处理时间控制、事件的关闭等流程化处理功能;针对不同级别的事件的确认和处理要求,定制事件超时自动升级策略
  • 分权管理功能,需要能针对不同用户的管理需要定制页面,定义可以使用的管理工具。
       历史事件数据统一入库,便于告警数据统一分析和报表数据提供。

资产管理平台
       统一的资源管理平台用于规范和共享信息,从而帮您整合人员、流程、信息和技术。统一的资源管理平台帮您自动发现和组合分布于企业内的IT信息,包括服务器、存储设备、网络、中间件、应用和数据的详细信息。
       在将IT基础设施作为一项业务进行管理时,所面临的一个挑战是通常无法有效地管理IT环境内的变更和配置流程。统一资源管理平台通过与IT流程管理平台配合采用自动化、预配置和可定制的工作流对变更和配置进行管理,从而解决了这一问题。
       吉林银行利用通过流程平台和资源平台配合,预测对业务的影响,了解所有尚未完成的变更,并确定日程。这样,在实施升级和其它变更时,可最大限度减少业务中断。
       统一资产平台将整个企业的数据整合在一起,帮您获得深入洞察力以协调在整个组织内所管理的资产和业务系统。
       TADDM提供了业务应用与支撑业务的基础设施之间完整而详细的应用程序映射,包括跨级别依赖性、运行时配置参数和完整变更历史。利用应用程序映射的自动维护,以及轻松地将数据和其他的企业信息进行集成的能力,IT组织可以:
  •   确保有效的成本控制和业务服务管理目标的成功执行。
  •   显著降低服务失效和不一致带来的商业风险。
  •   保证对技术和法规标准的遵从。
  •   减少解决问题时间。

       TADDM在市场上的诸多解决方案中,为应用基础设施的可视化提供了最全面的广度和深度。
       广度:利用超过250个开箱即用的传感器,TADDM提供了对基于.NET、J2EE或自定义应用平台的业务应用的完全可视化,支持所有主流的应用平台软件,包括WebSphere、Weblogic、JBoss、Oracle、DB2、MS SQL、Apache、IIS、SunOne以及成套应用,如PeopleSoft、SAP、Siebel和Domino/Notes,可运行于所有主流的Windows、Unix、Linux平台(或混合环境),支持相当广泛的网络和存储设备。
       深度:只有TADDM可以提供优化服务交付所需的相关信息的可视化。例如,TADDM可以识别:
  •   已部署应用模块如EJBs和.NET assemblies的变更
  •   单个软件流程之间的依赖性,不管它们是运行于Windows系统还是Linux,Unix或者是混合环境
  •   主要网络服务,像LDAP、NFS、DNS之间的依赖关系
  •   软件与物理网络和存储层的逻辑依赖关系
       TADDM提供解决方案的快速扩展能力以满足客户的具体需求。例如,用户可以即刻创建自定义软件服务器,作为优先对象来发现并跟踪其变更。
       最后,TADDM自动处理最后的应用映射和业务应用的自动发现。它通过两种方式来实现,一种是通过部署后创建的应用模板,另一种是通过开发或部署时创建的IBM Application Descriptor。TADDM取消了在建立、维护、可靠性扩展以及最终应用映射中的最后一步手工步骤,因而无须通过手工分组定义业务应用。这样极大地提高了成功执行业务服务管理和IT自动化绩效的能力,当然,该产品也支持通过拖拽来建立应用程序映射。
       总的来说,TADDM的发现解决方案提供快速的自动应用发现、详细的配置细节、企业级安全性以及与其他数据源的轻松集成,包括数据的输入和输出能力。
       最终通过TADDM发现的资产配置信息数据同Musingtec 3D机房管理系统进行集成后,即可通过3D机房直接查看设备的配置信息;
综合报表分析能力
       根据运维的需要定制不同分析数据的报表,满足运维管理的需要。例如:故障类、性能类、运维类、资源类等。

       重大告警统计汇总报表,统计最高级别的告警的应用分类、排名、按时间趋势分析图,并能下钻显示告警明细信息。
       使用率综合排名报表:通过CPU、内存、数据库表空间、磁盘空间的使用率排名,为未来的容量规划提供参考。
       系统性能趋势分析统计报表,根据指定日期和各类业务历史性能统计数据,通过定制系统及应用KPI,对相关KPI指标进行走势图分析,帮助运维人员提前做出预判,减少业务风险;
        针对应用系统数据空间、服务器磁盘空间、网络设备端口利用率或者存储系统的磁盘空间均会随着业务的扩大和时间的增长而不断增长,因此定时产生相关隐患排查表,通过对某个系统的指标进行定制分析排查,提醒系统管理员针对某个系统进行扩容和提前提交预算,防患于未然。
用户收益
       通过该项目的实施和上线运转、IBM Tivoli综合运维监控平台更好的保障了数据中心的业务体系正常运转,本次项目实现设备的硬件监控,统一事件告警,以面向业务和交易的角度对业务系统实现模拟监控,一旦业务系统故障不可用或者响应慢得情况下,可以通过Tivoli的模拟交易监控方式提前预警,而非被动电话接受故障告警,为运维人员争取更多的故障解决时间和故障解决依据,真正实现面向业务和交易的监控管理平台。主要以下几个方面:
  • 对IT集中监控平台及IT服务管理平台改造和优化,通过自动化的操作,方便运维人员操作;
  • 在保证IT监控完整可靠的前提下,尽量减少被监控系统的改造;同时对于不具备的功能进行开发或嵌入开发好的第三方系统,与IT集中监控及服务管理结合并联动;
  • 3D全仿真的机房监控界面,展现机房环境系统和动力系统的运行状态,以及网络设备及服务器的运行状态,方便运维人员统一管理和监控;同时,一旦机房中的机柜位置及数量发生变化时,监控界面通过和资产配置库实现自动位置更新;
  • 基于系统实施及开发对吉林银行现有IT环境的影响,制定完备的上线、发布计划方案并提供回退方案,尤其是IT运维流程系统的改造过程中,保障运维流程的正常运转。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x




上一篇:2014年7期IT运维管理讲堂《云计算下的服务管理》
下一篇:教育科研单位实施ITIL工具的成功案例
admin

写了 864 篇文章,拥有财富 29592,被 26 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies
挨踢达人 发表于 2014-3-27 13:48:58
赞一个~  第一篇~
Powered by IT 运维管理
返回顶部