×

微信扫一扫,快捷登录!

IT灾难恢复计划  

标签: 暂无标签
ITIL中有一个持续性管理,其中的一个核心是灾难恢复计划(disaster recovery planning,DRP),它实施的是一个技术框架,支持在灾难发生之前、之中、之后的业务需求。其主要目的是将系统风险降低到可接受的程度,确保重大业务中断事件发生后,能使用一种可接受的经济方式恢复关键的业务运作。
DRP也是业务持续性计划(business continuity planning,BCP)中子计划,事实上,在企业中业务持续性计划是由业务部门的领导制定,而DRP是由IT部门来领导。
如果一个IT部门/组织没有灾难恢复计划,那是不可想象的,那灾难恢复计划的制定有哪些步骤呢?下面就个人经验分享:
1、至少安排一个执行人员负责,此人需要熟悉业务方面操作,可以寻求向业务部门请一位,事实上,执行人员需要确保IT设施受到保护。
2、成立团队,这些需要考虑的人员是技术人员,特别重视的是这些人员中必须有灾难恢复计划的经验,若无,建议向外公司请顾问
3、确定支持关键业务功能的应用程序/系统
4、确保这些系统的关键数据是有备份的,而且是可靠的
5、制定计划,确定在发生灾难时,使用的是外部资源还是内部资源
6、对这个计划进行实施演习,如果成功,则为所有的应用系统设计一个更加全面的恢复计划。则形成一套方法模板
灾难恢复计划的例子模板:
(1)恢复计划概况及规范
  a.计划的目的和目标
  b.人员安排及责任描述
  c.恢复行动总结
(2)灾难报警及行动过程评估
  a.恢复管理初始通报
  b.领导通报
  c.  灾难确认和评估
  d.灾难恢复计划行动和恢复人员通报
(3)灾难恢复管理过程
  a.恢复操作管理
  b.恢复操作控制
  c.支持协作部门
(4)处理条件及操作服务过程
  a.建立替代操作或者备份区域(如果可行的话)
  b.恢复和重建基本的数据和信息
  c.激活备份的计算机工具
  d.激活备份的通讯及网络工具
  e.激活基本处理及操作服务
  f.激活终端用户界面和服务
(5)恢复过程工具
  a.激活损坏评估以及对建筑物、设备、软件、数据、信息和供应残存价值评估
  b.修理及置换受损场所
  c.重新激活备份场所
(6)激活厂家支持
(7)计算机中心服务灾难水平说明
  a.表明当影响了企业计算能力的灾难发生之后需要提供的服务水平
  b.这份服务说明表必须被包括在“服务水平协议”之中,并且向所有使用IT部门提供的IT服务说明
例如:
序号

服务

故障预见

故障级别

故障预防措施

故障处理和恢复措施

要求时间

责任人员

备注

1

***

MQ服务器硬件损坏,造成到***系统通讯中断

二级

1、准备备用环境:
以另一台同型号服务器做备用机--目前是***系统的四台AP服务器中的一台(具体服务器名);
在(具体服务器名)预先安装配置MQ环境;
2、保证系统安装配置指南的可用性和练习;

1、如果硬盘无故障,将一台***系统的AP服务器(IP地址)的硬盘拔出、而将MQ服务器的硬盘拨下来插到**ip的服务器上使用,***服务器停止提供***的AP服务;

2小时内完成

***

 

2、如果系统硬盘不可用,根据手册重新配置一台MQ服务器。

3小时内完成

2

F5负载均衡器损坏

一级

启用备用机

备用机已经激活,可按原来方式配置

1小时内完成

***

 

3

有一台小型机出现故障无法使用

视情况而定

1、测试小型机群集和RAC的有效性和切换过程中可能发生的异常;
2、建立完善的备份策略和测试备份的可用

向IBM报修等待故障恢复后加入到群集中

 

正式环境的备份恢复无法测试

4

两台机器都出现故障无法使用

一级

如有可能,准备***系统DB的备用服务器,与正式系统环境配置相同;
建立完善的备份策略

向IBM报修故障处理;
如有备机则按照手册在备用服务器上进行恢复

 

***

 

5

磁盘阵列出现故障无法使用

6

核心交换机故障或网络故障导致网络不可访问***系统

一级

建立完善的网络设备故障切换方案

按相关方案执行

 

 

 

7

Internet网络出口故障

一级

1、申请多个厂商备用出口;
2、测试监测出口切换的有效性;

如无备用出口,则只能向电信报障等待修复

 

***

 

8

外部域名系统故障;造成外网无法用域名访问系统

二级

定期检查外网* 域名状况;

联系域名服务商处理;通知外网用户以IP访问系统;

 

***

 

9

内部域名系统故障;造成内网无法用域名访问系统

三级

定期检查内网 域名状况;配置多台DNS服务器

启用备用的DNS服务器;如果处理时间较长则通知内网用户以IP访问系统;

1小时内完成

 

恢复报告:
1 测试目的
2 测试范围

3 测试说明

4 测试方法及使用资源

5 测试演练内容

5.1 数据恢复测试

5.1.1 环境准备

5.1.2 恢复数据

5.1.3 恢复验证

5.2 应用恢复测试

5.2.1 环境准备

5.2.2 恢复应用

5.2.3 恢复验证

5.3 验证结果




上一篇:CIO必须拥有的五项IT管理技术
下一篇:一个项目经理的总结—转
davidyeung

写了 11 篇文章,拥有财富 1887,被 4 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies
vincent2012 发表于 2011-10-23 11:59:01
Thanks for sharing!
shitouji 发表于 2011-9-6 09:40:36
无其他的方案?如再IDC机房放置重要的服务器等
gashjd 该用户已被删除
gashjd 发表于 2011-3-29 02:01:30
提示: 作者被禁止或删除 内容自动屏蔽
davidyeung 发表于 2011-1-24 21:31:23
本帖最后由 davidyeung 于 2011-1-24 21:33 编辑

我们做过故障演练,下面是演练所用到的资源:
恢复顺序/计划时间
核心应用名称
生产环境
本次恢复环境
恢复方法
1
**系统 AP
AP 4
使用备用机,恢复一台AP
在备用机上部署AP
2
**系统 DB
DB 2IBM P570
使用备用机,恢复数据库
使用前一天的导出数据进行恢复

在我们演练报告中有说明这些
123下一页
Powered by IT 运维管理
返回顶部