[BSM] EMC2业务连续性建设实践经验
学习资料:IT运维管理社区专家讲堂直播300期视频回放
EMC2业务连续性建设实践经验 许瑀资深业务连续性咨询顾问
一、BCM业务连续性管理导入
BCM的范围很宽,远远大于IT。应该在定出战略的基础上,组织业务相关人员全程参与,侧重应急响应和规划。在执行过程中分别进行风险管理、提前公告预防、应急管理、危机沟通、业务恢复和IT系统恢复。在EMC现在的BCM建设过程中,更侧重的是IT系统恢复。实际上业务连续性建设不等于IT服务的连续性建设,IT服务的连续性建设只是其中的重要一环。但是没有IT系统的持续,就没有业务的持续,IT服务的连续性是业务连续的重要基础,从IT服务的连续性建设开始,是进行业务连续性建设的有效途径。
在行业应用过程中,以IT为中心的业务连续性建设重要性日益明显,因为业务功能对IT系统的依赖性越来越高,业务系统集中化所带来的运行风险不可低估。为此,国务院信息办决定在八大重点行业全面建设容灾系统,强调投资容灾建设的成本是长线投资,远远小于灾难损失。
我们这里所讲的业务连续性建设是以IT为中心的,相应项目团队的主要成员也是IT部门相关人员,当然必须要业务部门人员积极参与,并且得到业务部门的授权和配合。IT业务连续性管理项目必须自定向下贯穿组织核心部门,覆盖组织核心流程。总体说来,BCM必须要提前规划,防范与未然,通过日常容灾系统等部署,在灾难降临时才会将业务影响和损失减少到最小。发生事故时,比较合理的解决方式是CIO主动报告:公司的应急评估小组对突发事件进行了初步评估,原因可能是什么,有无数据丢失,估计需要多长时间才能修复,根据业务连续性计划,启用什么应急预案,预计在多长时间后恢复供应链管理系统。
实现业务连续的关键要素是以业务为核心,配备相关人员、制定完善的流程、采用合适的技术,这才能保证企业的业务连续性。为此,EMC开发了BCSI方法论,为以IT为中心的业务连续性建设提供系统、科学的指导。其中,核心模块包括启动准备、规划、建立和管理。
二、BCM业务连续性管理内容
以IT为中心的业务连续性规划包含两方面内容。第一方面是本地运营恢复规划,包括本地保护与恢复策略规划、本地保护与恢复技术选择、本地保护与恢复架构规划、本地保护与恢复改造路线。第二方面是灾难恢复规划,包括容灾保护策略规划、灾难恢复策略规划、容灾技术选型、容灾架构规划、演进路线。这两方面内容的实现依赖于IT现状分析、风险分析和业务影响分析的有效支撑。
我们要反复强调的是实施BCM时不能给业务部门太高期望,因为IT手段始终有限,不可能确保数据完全不遗漏,必须让业务部门清楚这一点。下面我们分别介绍管理内容的要点。
1.业务影响分析
第一步要定义业务需求,根据业务需求来定义相关参数。对于紧急的灾难事件,容忍时间限度要放宽,所以定义了DRTO、DRPO(DisasterRecovery);而对于日常工作中的普通问题,时间限度变小,用ORTO、ORPO(OperationalRecovery)衡量,要求必须实时备份,在系统故障发生时及时追回数据。总体说来,必须分别定义事件的重要和紧急程度,对于最重要、最紧急的事情,进行重点及时处理。
根据具体的业务进行相应需求分析时,分析的范围主要包括如下几方面:定性或定量分析关键业务中断的影响或损失、定义关键业务功能和业务流程、分析关键业务功能、业务流程所依赖的资源(重点IT资源)、分析业务与IT系统的映射关系、分析各关键业务功能最小资源要求(侧重IT,并设置相应优先级)、业务重要性分类、定义容灾目标、数据追补能力及方式。
第二步进行业务重要性分类,要明确建设目标,分别考察决策时间、评估时间、等待时间,进而准确定义DRTO和DRPO。
2.风险分析
业务系统可能面临的风险包括计划外和计划内风险,必须分别列举出相应风险类别和案例,方便策略的制定。制定业务连续性保护策略包括和容灾保护策略。其中,本地保护策略包括本地高可用(群集或负载均衡等)、磁带备份、备份到磁盘、虚拟磁带库、基于磁盘卷复制的保护、CDP(持续数据保护)。容灾保护策略包括同城容灾、远程容灾、两点容灾、多点容灾、同级容灾、降级容灾、应用级或数据级容灾、同步数据保护或异步数据保护、容灾数据复制技术、主备中心运营方式、双中心运营方式、多中心运营方式和演进路线。
3.应用及IT现状分析
需要关注的现状分析有分析业务应用与IT系统映射、分析业务应用的关联关系、根据业务的关键性确定IT系统和IT元素的重要性。例如,当用户发现详单和总帐不一致时,移动和银行的处理手段就不一样,因为行业的关注点和性质差别很多,需要分别展开分析。
4.本地运营恢复和灾难恢复
根据策略的不同,需要分别选择相应的技术手段进行本地或远程方案的制定。
在灾难恢复方面,技术实现手段有很多种。当前的现状是90%的用户采用基于磁盘阵列的技术进行备份;金融和很多机构都是采用Linux系统。我们在实施时应该尽量参考成熟、广泛应用的系统和技术手段,确保系统和技术的可靠性。
对此,国务院信息化工作办公室在《重要信息系统灾难恢复指南》中定义了不同的灾难恢复等级可以有不同的技术实现,可以作为实践的知道。但是我不同意第6级,数据零丢失和远程集群支持直接由同步复制技术和远程群集来实现。因为零数据丢失必须是同城容灾,这个界定必须清楚。另外,远程集群支持中的容灾自动切换也不科学,因为容灾决策是定性分析,必须人工进行,系统自动执行是有风险的。应该由人做出决策,而后自动执行切换,系统在这方面的智能程度并不能很好的满足应用需求。
对于系统建设阶段的开发,EMC开发了BCSI方法论,为以IT为中心的业务连续性建设提供系统、科学的指导。
顶顶更健康 楼猪V5啊
页:
[1]