长河 发表于 2011-3-24 14:56:32

EMC2业务连续性建设实践经验

EMC2业务连续性建设实践经验  许 瑀 资深业务连续性咨询顾问

  一、BCM业务连续性管理导入
  BCM的范围很宽,远远大于IT。应该在定出战略的基础上,组织业务相关人员全程参与,侧重应急响应和规划。在执行过程中分别进行风险管理、提前公告预防、应急管理、危机沟通、业务恢复和IT系统恢复。在EMC现在的BCM建设过程中,更侧重的是IT系统恢复。实际上业务连续性建设不等于IT服务的连续性建设,IT服务的连续性建设只是其中的重要一环。但是没有IT系统的持续,就没有业务的持续,IT服务的连续性是业务连续的重要基础,从IT服务的连续性建设开始,是进行业务连续性建设的有效途径。
  在行业应用过程中,以IT为中心的业务连续性建设重要性日益明显,因为业务功能对IT系统的依赖性越来越高,业务系统集中化所带来的运行风险不可低估。为此,国务院信息办决定在八大重点行业全面建设容灾系统,强调投资容灾建设的成本是长线投资,远远小于灾难损失。
  我们这里所讲的业务连续性建设是以IT为中心的,相应项目团队的主要成员也是IT部门相关人员,当然必须要业务部门人员积极参与,并且得到业务部门的授权和配合。IT业务连续性管理项目必须自定向下贯穿组织核心部门,覆盖组织核心流程。总体说来,BCM必须要提前规划,防范与未然,通过日常容灾系统等部署,在灾难降临时才会将业务影响和损失减少到最小。发生事故时,比较合理的解决方式是CIO主动报告:公司的应急评估小组对突发事件进行了初步评估,原因可能是什么,有无数据丢失,估计需要多长时间才能修复,根据业务连续性计划,启用什么应急预案,预计在多长时间后恢复供应链管理系统。
  实现业务连续的关键要素是以业务为核心,配备相关人员、制定完善的流程、采用合适的技术,这才能保证企业的业务连续性。为此,EMC开发了BCSI方法论,为以IT为中心的业务连续性建设提供系统、科学的指导。其中,核心模块包括启动准备、规划、建立和管理。
  二、BCM业务连续性管理内容
  以IT为中心的业务连续性规划包含两方面内容。第一方面是本地运营恢复规划,包括本地保护与恢复策略规划、本地保护与恢复技术选择、本地保护与恢复架构规划、本地保护与恢复改造路线。第二方面是灾难恢复规划,包括容灾保护策略规划、灾难恢复策略规划、容灾技术选型、容灾架构规划、演进路线。这两方面内容的实现依赖于IT现状分析、风险分析和业务影响分析的有效支撑。
  我们要反复强调的是实施BCM时不能给业务部门太高期望,因为IT手段始终有限,不可能确保数据完全不遗漏,必须让业务部门清楚这一点。下面我们分别介绍管理内容的要点。
  1.业务影响分析
  第一步要定义业务需求,根据业务需求来定义相关参数。对于紧急的灾难事件,容忍时间限度要放宽,所以定义了DRTO、DRPO(Disaster Recovery);而对于日常工作中的普通问题,时间限度变小,用ORTO、ORPO (OperationalRecovery)衡量,要求必须实时备份,在系统故障发生时及时追回数据。总体说来,必须分别定义事件的重要和紧急程度,对于最重要、最紧急的事情,进行重点及时处理。
  根据具体的业务进行相应需求分析时,分析的范围主要包括如下几方面:定性或定量分析关键业务中断的影响或损失、定义关键业务功能和业务流程、分析关键业务功能、业务流程所依赖的资源(重点IT资源)、分析业务与IT系统的映射关系、分析各关键业务功能最小资源要求(侧重IT,并设置相应优先级)、业务重要性分类、定义容灾目标、数据追补能力及方式。
  第二步进行业务重要性分类,要明确建设目标,分别考察决策时间、评估时间、等待时间,进而准确定义DRTO和DRPO。
  2.风险分析
  业务系统可能面临的风险包括计划外和计划内风险,必须分别列举出相应风险类别和案例,方便策略的制定。制定业务连续性保护策略包括和容灾保护策略。其中,本地保护策略包括本地高可用(群集或负载均衡等)、磁带备份、备份到磁盘、虚拟磁带库、基于磁盘卷复制的保护、CDP(持续数据保护)。容灾保护策略包括同城容灾、远程容灾、两点容灾、多点容灾、同级容灾、降级容灾、应用级或数据级容灾、同步数据保护或异步数据保护、容灾数据复制技术、主备中心运营方式、双中心运营方式、多中心运营方式和演进路线。
  3.应用及IT现状分析
  需要关注的现状分析有分析业务应用与IT系统映射、分析业务应用的关联关系、根据业务的关键性确定IT系统和IT元素的重要性。例如,当用户发现详单和总帐不一致时,移动和银行的处理手段就不一样,因为行业的关注点和性质差别很多,需要分别展开分析。
  4.本地运营恢复和灾难恢复
     根据策略的不同,需要分别选择相应的技术手段进行本地或远程方案的制定。
  在灾难恢复方面,技术实现手段有很多种。当前的现状是90%的用户采用基于磁盘阵列的技术进行备份;金融和很多机构都是采用Linux系统。我们在实施时应该尽量参考成熟、广泛应用的系统和技术手段,确保系统和技术的可靠性。
  对此,国务院信息化工作办公室在《重要信息系统灾难恢复指南》中定义了不同的灾难恢复等级可以有不同的技术实现,可以作为实践的知道。但是我不同意第6级,数据零丢失和远程集群支持直接由同步复制技术和远程群集来实现。因为零数据丢失必须是同城容灾,这个界定必须清楚。另外,远程集群支持中的容灾自动切换也不科学,因为容灾决策是定性分析,必须人工进行,系统自动执行是有风险的。应该由人做出决策,而后自动执行切换,系统在这方面的智能程度并不能很好的满足应用需求。
  对于系统建设阶段的开发,EMC开发了BCSI方法论,为以IT为中心的业务连续性建设提供系统、科学的指导。
  三、BCP业务连续性计划
  业务连续性计划是一套事先被定义和文档化的计划,明确定义了恢复业务所需要的关键人员、资源、行动、任务和数据。需要考虑的问题包括:关键业务数据被彻底破坏,只能用昨天的备份恢复,该怎么办?服务器瘫痪,该怎么办?技术更新换代,怎么样对业务影响最小?发生了灾难事件,该怎么办?IT系统恢复是否就可以开放业务运营?
  BCP的内容不应该只局限在IT方面,应该涵盖如下几个方面:应急响应计划(业务连续性管理组织结构、应急初始评估流程、灾难宣布流程、灾难评估流程);容灾恢复计划(IT切换流程/步骤/启用条件、IT回切流程/步骤/启用条件);运维恢复计划(ORP);业务恢复计划。
  BCP必须简单有效,定期演练,演练之前充分准备,遵守相关流程,从而保持业务连续性计划的有效性。演练的关键点在于通过真实的演练来检验并提高,演练规划要详细、模块化,演习手册要能满足指挥员和操作员不同的需求,演习结果要量化衡量。每次演练都有新的问题发生,在事前不要给领导100%的预期,因为演练的目的是要成长和提高,通常实现80%的目标就已经是一种成功。
  下面我们探讨一下保持业务连续性计划的有效性举措。首先是进行业务连续性计划的维护与更新。内容包括采用模块化内容组织方式,方便管理、维护;根据业务发展进行扩充;建立明确的维护与更新机制;利用BCM管理软件进行科学管理。其次是容灾系统的变更管理与控制。内容包括建立容灾系统变更管理流程;建立容灾系统配置同步控制机制;建立定期检查机制,明确职责分工。最后是得到管理层的重视,具体体现在由领导牵头确保日常运维严格按照业务连续性计划要求进行,并且推行正规的考核机制。
  有了业务连续性计划后,实际的操作流程应该清楚的进行定义。遇到故障时,必须及时汇报,并进行故障评估。对于故障可本地恢复,无数据破坏的,执行本地恢复预案,无需数据追补;对于故障可本地恢复,有数据破坏的,执行本地数据恢复,执行数据追补预案;对于非灾难事件,可以利用容灾系统加快缩短恢复时间,执行容灾切换;对于灾难事件,则要执行灾难切换流程。
  Q&A
  1、在BCM执行时,很多业务部门有很高的预期,认为建立相应系统就可以恢复所有问题,那么当业务部门和IT部门出现争议的情况,应该如何处理?
  目前没有公认的很好的解决方案,关键是思想意识上引导,改进观念。通过和业务部门沟通,告诉他们通过容灾备份可以解决哪些风险,解决到什么程度。当他们的预期更高时,我们要告诉他们有什么方法满足,要付出多大代价,所以最终是业务和IT部门的一个折衷。如果业务上没有难以忍受的损失,最终解决之道是以IT为主导,参考业务的意见,在基本面上满足他们的预期。
  2、您提到的《重要信息系统灾难恢复指南》中第六级的问题是否可以通过演练来解决?
  目前市场的自动切换软件无法根据定义的切换顺序来有序运行,当有的系统切换不过去,后面的系统根本无法带动,必须有先后顺序,无法智能选择。所以目前仍然为人工定义,看哪些可以串行、哪些可以并行,最终通过规划有一个全局的规划处理。因此,这个问题不是演练所能解决的,而是在决策制定是必须要人的参与。
  3、银行和保险公司的系统应用中,常出现由于编程人员少了一个编程条件,产生一些修改误差,导致数据逻辑错误。而系统不会自动识别这些问题,通常滞后很长时间才会发现,而原始数据又不存在了。这种情况应该如何防范?
  这实际不是BCM中的问题,而是系统应用中常出现的一个难题。由于历史数据已经不存在了,很难找到之前的时间点去恢复。解决方法依赖与多个时间点数据的保存,方便历史节点的查询。所以需要有个数据归档平台,定期抽取重要的数据信息放到归档平台,保存的时间会比较长,通常7年以上。

从头来过 发表于 2014-4-2 06:56:48

路过

飘飘悠悠 发表于 2014-4-2 06:56:50

跟大家交流一个ITIL的概念吧:为促进ITIL的推广,让ITIL在全行业得到广泛的使用,EXIN和APMG授权相关培训机构就ITIL培训,培训课程将通过ITIL的五大生命周期全面介绍IT服务管理最佳实践及ITIL知识体系;深入指导如何进行IT服务管理体系建设。培训的对象包括了CIO、IT运维经理、团队管理干部;数据中心经理;IT运维人员;IT项目经理等。
页: [1]
查看完整版本: EMC2业务连续性建设实践经验