本帖最后由FYIRH于2022-8-1017:27编辑
返回ITIL4理论与实践整体知识体系中文版发布文件汇总
需要下载最新翻译版本请关注微信公众号:ITILXF,并回复“服务连续性”即可。
服务连续性管理实践的目的是确保服务的可用性和性能或绩效保持在足够的水平。实践提供了一个框架,用于利用产生有效响应的能力构建组织弹性,该响应可以维护关键利益相关者的利益,而组织的声誉,品牌和价值创建活动。
定义:灾难
意外的计划外事态,会对组织造成巨大损坏或严重损失。要被分类为灾难,事态必须与组织预定义的某些业务-影响准则匹配。
服务连续性管理实践有助于确保服务提供者做好应对高影响事件的准备,这些事件会破坏组织的核心活动和/或信誉。
确保服务的连续性变得越来越重要和困难。服务连续性管理实践在数字化转型的背景中变得越来越重要,因为数字化服务的角色在各个行业中都在增长。服务的严重中断可能对过去专注于非技术灾难的组织造成灾难性影响。
云解决方案的广泛使用以及合作伙伴和服务消费者的数字化服务在集成方面的广泛使用,正在创建新的关键依赖关系,而控制则更加困难。合作伙伴和服务消费者通常在高可用性和高连续性解决方案上进行投资,但是组织之间缺乏集成和一致性会产生新的漏洞,需要理解和解决。
服务连续性管理实践与其他惯例(包括可用性管理,容量和性能管理,信息安全管理,风险管理,服务设计,关系管理,架构管理和供应商管理惯例)相结合,可以确保组织的服务具有弹性并为灾难性事件做好准备。
风险的概念是服务连续性管理实践的核心。该实践通常减轻了无法完全避免的高影响,低概率风险(因为某些风险因素不在组织的控制之下,例如自然灾害)。
用最简单的术语来说,此实践与事件管理实践非常相似,除了可能造成损坏的可能性更高之外,并且它可能威胁服务提供者创建价值的能力。
服务连续性管理实践与服务价值系统(SVS)中的可用性管理实践密切相关,并且在某些背景中可能与之合并。也是
AXELOS版权
仅查看–不用于重新分发
©2020
服务连续性管理5
与公司背景中的业务连续性管理实践紧密相关,并可以并入其中。
在服务经济体中,每个组织的业务都是由服务驱动并具有数字功能。因为业务连续性管理实践与数字化服务和服务管理的连续性有关,所以这可能会导致学科的完整集成。如果数字化转型导致消除了“IT管理”和“业务管理”之间的边界,则集成可能是有用的(有关该主题的更多信息,请参见ITIL®4:High-VelocityIT)。
2.2术语和概念
对于内部服务提供商,服务连续性管理实践的主要目的将通过确保通过管理可能影响IT服务的风险来确保服务提供者始终提供相关的议定服务级别,从而为整个业务连续性管理实践提供支持。
对于外部服务提供程序,服务连续性管理等于业务连续性管理。
业务连续性专业人员也对处理业务危机(如媒体关注度下降或市场破坏性事件)感兴趣。但是,在本实践指南中,服务连续性管理实践的范围仅限于运行的风险。
2.2.1灾难(或破坏性的事件或危机)
ISO将灾难定义为“具有高度不确定性的情况,这种情况会破坏核心活动和/或组织的信誉并需要紧急的性能或绩效”1.
明确定义被认为是灾难的事件列表通常是一个好主意。这样做有助于制定适当的服务连续性计划集,从而确保组织为破坏性事件做好准备。
1iso22300:2012
6服务连续性管理AXELOS版权
仅查看–不可重新分配©2020
灾难清单通常包括:
●网络攻击
●停电
●战略合作伙伴的失败
●火灾
●洪水
●关键人员不可用
●大规模IT基础设施故障(例如数据中心故障)
●自然灾害。
定义那些不是灾难的事件同样重要。通常,服务连续性管理实践不涵盖:
●轻度故障。应该将故障视为轻度或基于业务影响的严重故障。重要的是要考虑诸如服务受影响的动作,失效的规模,失效的时间等因素。2.
●战略,政治,市场或行业事件。
为了成功从灾难恢复,服务提供者应该定义服务的连续性要求。服务的连续性要求包括:
●recoverytimeobjective(RTO)
●recoverypointobjective(RPO)
●最低服务连续性级别(请参阅图片2.1)。
图片2.1服务的连续性要求:RTO,RPO,最低目标服务级别
AXELOS版权
仅查看–不用于重新分发
©2020
服务连续性管理7
2.2.2恢复时间目标
估算RTO时应考虑的主要因素是:
●服务提供者提供服务的能力下降以及与此相关的成本
●服务级别协议罚款和监管判决
●与竞争优势和声誉减少相关的损失。业务连续性专业人员还使用术语“最大容许中断时间/最大可接受中断(MAO)”,并将其与RTO区分开。
ISO22301:2012提供以下定义:
●MAO不提供生产/服务或执行实现价值可能导致不良影响所花费的时间变得不可接受。
●RTO事件之后的时间段,其中生产或实现价值必须为-
恢复,否则必须恢复资源。
按照此逻辑,RTO应当比MAO小一定数量,这足以说明组织风险的需求3.在业务影响分析中应确定MAO。应该在服务连续性计划的开发中定义RTO。
2.2.3恢复点目标
RPO定义了可接受的数据损失的时间段。如果RPO为30分钟,则在破坏性事态之前30分钟应至少有一个备份,以便在恢复服务时,在服务交付时,在破坏性事态之前30分钟或更短时间内的数据将可用。恢复。
估算RPO时应考虑的主要因素是:
●使用数据的服务的重要性
●数据的重要性
●数据的生产率。
例如,一家网上商店每小时接收100个订单。高管们说,失去200个订单将是不可接受的。因此,RPO为2小时。
RPO为备份频率定义了需求。如果是灾难,备份管理必须确保最近的备份副本的可用性。
8服务连续性管理AXELOS版权
仅查看–不可重新分配©2020
2.2.4最低目标服务级别
从灾难恢复时,服务提供者通常应以最低目标服务级别提供服务。即使客户没有特殊要求,但达到最低服务级别也可以帮助最大程度地减少损失。
最低目标服务级别通常根据以下方面进行定义:
●中断期间用户应使用的特定服务操作和功能点的列表
●在中断期间应能够访问服务的用户或特定用户组的数量有限
●用户在中断期间应该能够使用流程的每个时间段内的事务数量有限。
2.2.5业务影响分析
业务影响分析(BIA)是一种流程,用于分析活动以及中断可能对其产生的影响5.
根据ISO22301,业务影响分析应包括:
●识别支持产品和服务提供的活动
●评估不执行这些活动的影响
●设置优先级时限范围以在指定的最小可接受水平上恢复这些活动,考虑到不恢复它们的影响将变得不可接受的时间
●确定这些活动的依赖关系和支持资源,包括供应商,
外包合作伙伴,以及其他有关各方。
2.2.6服务连续性/灾难恢复计划
服务连续性计划在中断后响应,恢复服务并将其恢复到正常水平时指导服务提供者。
AXELOS版权
仅查看–不用于重新分发
©2020
服务连续性管理9
服务连续性计划通常包括:
●响应计划这定义了服务提供者最初如何对破坏性的事态做出反应,以防止损坏,例如火灾或网络攻击。
●恢复计划这定义了服务提供者如何恢复服务以实现RTO和RPO。
●计划恢复正常操作这定义了服务提供者在恢复之后如何恢复正常操作。例如,如果已使用备用数据中心,则此阶段将使主要数据中心重新回到运维和复原中,从而能够再次调用IT服务连续性计划。
在许多情况下,也需要业务连续性规划。业务连续性计划可能包括:
●与所有紧急服务和活动接口的紧急响应
●疏散计划以确保人员安全
●危机管理和公众关系计划计划用于不同危机的命令和控制,媒体的管理和公众关系
●安全计划显示了如何在所有主站点和恢复站点上管理安全的所有方面
●通讯计划,显示了在重大事件期间如何与所有相关领域和相关方处理和管理通讯的各个方面。
这些计划通常是业务连续性管理实践的一部分。
Keymessage
Thepurposeoftheservicecontinuitymanagementpracticeistoensurethattheavailabilityandperformanceofaservicearemaintainedatsufficientlevelsincaseofadisaster.Thepracticeprovidesaframeworkforbuildingorganizationalresiliencewiththecapabilityofproducinganeffectiveresponsethatsafeguardstheinterestsofkeystakeholdersandtheorganization’sreputation,brand,andvalue-creatingactivities.
Definition:Disaster
Asuddenunplannedeventthatcausesgreatdamageorseriouslosstoanorganization.Tobeclassifiedasadisaster,theeventmustmatchcertainbusiness-impactcriteriathatarepredefinedbytheorganization.
Theservicecontinuitymanagementpracticehelpstoensureaserviceprovider’sreadinesstorespondtohigh-impactincidentswhichdisrupttheorganization’scoreactivitiesand/orcredibility.
Ensuringservicecontinuityisbecomingmoreimportantanddifficult.Theservicecontinuitymanagementpracticeisincreasinglyimportantinthecontextofdigitaltransformation,becausetheroleofdigitalservicesisgrowingacrossindustries.Majoroutagesofservicesmayhavedisastrouseffectsonorganizationsthat,inthepast,focusedonnon-technologicaldisasters.
Wideruseofcloudsolutionsandwiderintegrationwithpartners’andserviceconsumers’digitalservicesarecreatingnewcriticaldependenciesthataremoredifficulttocontrol.Partnersandserviceconsumersusuallyinvestinhigh-availabilityandhigh-continuitysolutions,butalackofintegrationandconsistencybetweenorganizationscreatesnewvulnerabilitiesthatneedtobeunderstoodandaddressed.
Theservicecontinuitymanagementpractice,inconjunctionwithotherpractices(includingtheavailabilitymanagement,capacityandperformancemanagement,informationsecuritymanagement,riskmanagement,servicedesign,relationshipmanagement,architecturemanagement,andsuppliermanagementpractices,amongothers),ensuresthattheorganization’sservicesareresilientandpreparedfordisastrousevents.
Theconceptofriskiscentraltotheservicecontinuitymanagementpractice.Thispracticeusuallymitigateshigh-impact,low-probabilityriskswhichcannotbetotallyprevented(becausesomeriskfactorsarenotundertheorganization’scontrol,suchasnaturaldisasters).
Inthesimplestterms,thispracticeismuchliketheincidentmanagementpractice,exceptthatthepotentialfordamageismuchhigheranditmaythreatentheserviceprovider’sabilitytocreatevalue.
Theservicecontinuitymanagementpracticeiscloselyrelatedto,andinsomecontextmaybemergedwith,theavailabilitymanagementpracticewithintheservicevaluesystem(SVS).Itisalso
AXELOSCopyright
ViewOnly–NotforRedistribution
©2020
Servicecontinuitymanagement5
closelyrelatedto,andmaybeincorporatedinto,thebusinesscontinuitymanagementpracticeinacorporatecontext.
Inaserviceeconomy,everyorganization’sbusinessisservice-drivenanddigitallyenabled.Thismayleadtoafullintegrationofthedisciplinesbecausethebusinesscontinuitymanagementpracticeisconcernedwiththecontinuityofdigitalservicesandservicemanagement.Thisintegrationispossibleandusefulwheredigitaltransformationhasledtotheremovalofthebordersbetween‘ITmanagement’and‘businessmanagement’(seeITIL®4:High-VelocityITformoreonthistopic).
2.2TERMSANDCONCEPTS
Forinternalserviceproviders,themainobjectiveoftheservicecontinuitymanagementpracticeistosupporttheoverallbusinesscontinuitymanagementpracticebyensuringthat,throughmanagingtherisksthatcouldaffectITservices,theserviceprovidercanalwaysprovidetherelevantagreedservicelevels.
Forexternalserviceproviders,servicecontinuitymanagementequalsbusinesscontinuitymanagement.
Businesscontinuityprofessionalsarealsointerestedindealingwithsuchbusinesscrisesasadversemediaattentionordisruptivemarketevents.However,inthispracticeguide,thescopeoftheservicecontinuitymanagementpracticeislimitedtooperationalrisks.
2.2.1Disaster(ordisruptiveincidentorcrisis)
ISOdefinesadisasteras‘asituationwithahighlevelofuncertaintythatdisruptsthecoreactivitiesand/orcredibilityofanorganizationandrequiresurgentaction’1.
Itisusuallyagoodideatoexplicitlydefinethelistofeventswhichareconsideredtobedisasters.Doingsohelpswhendevelopingapropersetofservicecontinuityplans,whichensuresorganizationalreadinessfordisruptiveevents.
1ISO22300:2012
6ServicecontinuitymanagementAXELOSCopyright
ViewOnly–NotforRedistribution©2020
Alistofdisastersgenerallyincludes:
●cyberattacks
●electricityoutages
●failuresofstrategicpartners
●fires
●floods
●keypersonnelunavailability
●large-scaleITinfrastructurefailures(suchasdata-centrefailures)
●naturaldisasters.
Definingthoseeventswhicharenotdisastersisequallyimportant.Usually,theservicecontinuitymanagementpracticedoesnotcover:
●Minorfailures.Failuresshouldbeconsideredminorormajorbasedonbusinessimpact.Itisimportanttoconsiderfactorssuchastheserviceactionsthatareaffected,thescaleoffailure,timeoffailure,andsoon2.
●Strategic,political,market,orindustryevents.
Tosuccessfullyrecoverfromadisaster,aserviceprovidershoulddefinetheservicecontinuityrequirements.Servicecontinuityrequirementsinclude:
●recoverytimeobjective(RTO)
●recoverypointobjective(RPO)
●minimumservicecontinuitylevels(seeFigure2.1).
Figure2.1Servicecontinuityrequirements:RTO,RPO,minimumtargetservicelevel
AXELOSCopyright
ViewOnly–NotforRedistribution
©2020
Servicecontinuitymanagement7
2.2.2Recoverytimeobjective
ThemainfactorsthatshouldbeconsideredinestimatingtheRTOare:
●thereductioninaserviceprovider’sabilitytodeliverservicesandthecostsassociatedwiththisreduction
●Servicelevelagreementfinesandregulatoryjudgments
●lossesassociatedwithdiminishedcompetitiveadvantageandreputation.Businesscontinuityprofessionalsalsousetheterm‘maximumtolerableperiodofdisruption/maximumacceptableoutage(MAO)’anddistinguishthemfromtheRTO.
ISO22301:2012providesthefollowingdefinitions:
●MAOThetimeitwouldtakeforadverseimpacts,whichmightariseasaresultofnotprovidingaproduct/serviceorperforminganactivity,tobecomeunacceptable.
●RTOTheperiodoftimefollowinganincidentwithinwhichaproductoranactivitymustbe-
resumed,orresourcesmustberecovered.
Followingthislogic,theRTOshouldbelessthantheMAObyanamountwhichaccountsfortheorganizationalriskappetite3.TheMAOshouldbeidentifiedduringbusinessimpactanalysis.RTOshouldbedefinedduringthedevelopmentofservicecontinuityplans.
2.2.3Recoverypointobjective
RPOdefinestheperiodoftimeofacceptabledataloss.IftheRPOis30minutes,thereshouldbeatleastonebackup30minutespriortoadisruptiveeventsothat,whentheserviceisrecovered,thedatafromthetime30minutesorlesspriortothedisruptiveeventwillbeavailablewhenservicedeliveryisresumed.
ThemainfactorsthatshouldbeconsideredinestimatingtheRPOare:
●criticalityoftheservicethatusedthedata
●criticalityofthedata
●data-productionrate.
Forexample,anonlineshoptakes100ordersperhour.Executivessaythatlosing200orderswouldbeunacceptable.Therefore,theRPOis2hours.
TheRPOdefinestherequirementforbackupfrequency.Backupmanagementmustensuretheavailabilityofrecentbackupcopyincaseofdisaster.
8ServicecontinuitymanagementAXELOSCopyright
ViewOnly–NotforRedistribution©2020
2.2.4Minimumtargetservicelevel
Whilerecoveringfromadisaster,aserviceprovidershouldusuallyprovidetheserviceatsomeminimumtargetservicelevel.Eventhoughtherearenospecificrequirementsfromthecustomer,achievingaminimumservicelevelcanhelptominimizelosses.
Theminimumtargetservicelevelisusuallydefinedintermsof:
●listofspecificserviceactionsandfunctionalitypointsthatshouldavailabletotheusersduringadisruption
●limitednumberofusersorspecificgroupofuserswhoshouldhaveaccesstotheserviceduringadisruption
●limitednumberoftransactionspertimeperiodthatusersshouldbeabletoprocessduringadisruption.
2.2.5Businessimpactanalysis
Businessimpactanalysis(BIA)isaprocessofanalysingactivitiesandtheeffectthatadisruptionmighthaveonthem5.
AccordingISO22301,businessimpactanalysisshouldinclude:
●identifyingactivitiesthatsupporttheprovisionofproductsandservices
●assessingtheimpactsovertimeofnotperformingtheseactivities
●settingprioritizedtimeframesforresumingtheseactivitiesataspecifiedminimumacceptablelevels,consideringthetimewithinwhichtheimpactsofnotresumingthemwouldbecomeunacceptable
●identifyingdependenciesandsupportingresourcesfortheseactivities,includingsuppliers,
outsourcepartners,andotherrelevantinterestedparties.
2.2.6Servicecontinuity/disasterrecoveryplans
Servicecontinuityplansguidetheserviceproviderwhenresponding,recovering,andrestoringaservicetonormallevelsfollowingdisruption.
4ISO22301:2012
5BCIGoodpracticeguidelines2013
AXELOSCopyright
ViewOnly–NotforRedistribution
©2020
Servicecontinuitymanagement9
Servicecontinuityplansusuallyinclude:
●ResponseplanThisdefineshowtheserviceproviderinitiallyreactstoadisruptiveeventinordertopreventdamage,suchasincasesoffireorcyber-attack.
●RecoveryplanThisdefineshowtheserviceproviderrecoverstheserviceinordertoachievetheRTOandRPO.
●PlanofreturningtonormaloperationsThisdefineshowtheserviceproviderresumesnormaloperationsfollowingrecovery.Forexample,ifanalternativedatacentrehasbeeninuse,thenthisphasewillbringtheprimarydatacentrebackintooperationandrestoretheabilitytoinvokeITservicecontinuityplansagain.
Inmanyacase,thereisalsoaneedforbusinesscontinuityplanning.Businesscontinuityplansmayinclude:
●emergencyresponsetointerfacewithallemergencyservicesandactivities
●evacuationplantoensurethesafetyofpersonnel
●crisismanagementandpublicrelationsplanplansforthecommandandcontrolofdifferentcrisesandthemanagementofthemediaandpublicrelations
●securityplanshowinghowallaspectsofsecuritywillbemanagedonallhomesitesandrecoverysites
●communicationplanshowinghowallaspectsofcommunicationwillbehandledandmanagedwithallrelevantareasandpartiesinvolvedduringamajorincident.
Theseplansareusuallydevelopedaspartofthebusinesscontinuitymanagementpractice.
申明:
本文档由长河(微信achotsao)在机译的基础上经初步整理而成,精细化翻译工作正由IT运维管理社区组织的ITIL专家团队进行之中,预计将于2020年年底之前全部完成。需要下载最终翻译版本请关注微信公众号:IT运维管理社区,或访问www.ITIL4hub.cnorwww.ITILxf.com。
IT运维管理社区专家团队仅仅只是进行了这些著作的语种转换工作,我们并不拥有包括原著以及中文发行文件的任何版权,所有版权均为Axoles持有,读者在使用这些文件(含中文翻译版本)时需完全遵守Axoles和TSO所申明的所有版权要求。
|