本帖最后由FYIRH于2022-8-1017:23编辑
返回ITIL4理论与实践整体知识体系中文版发布文件汇总
最新消息:本实践中文翻译发布版已经推出,请点击http://www.ITILxf.com/thread-140689-1-1.html下载。
需要下载最新翻译版本请关注微信公众号:ITILXF,并回复“监控和事态管理”即可。
监控和事态管理实践的目的是系统地观察服务和服务组件,并且记录和报告选择标识为事件的状态变化。该实践标识基础结构,服务,业务流程和信息安全事件并对其进行优先级排序,并对这些事件建立适当的响应,包括响应可能导致潜在故障或事件的条件。
监控和事态管理用于管理整个生命周期中的事件,以了解和优化在组织及其服务上的影响。监控和事态管理包括对与所有基础架构级别以及与组织及其服务使用者之间的服务交互作用有关的事件的标识,分类或分析。监控和事态管理确保对这些事件做出适当及时的响应。
实践的监控部分专注于服务和配置项(CI),以检测潜在重要条件,跟踪和记录服务人员和CI的状态,并将此信息提供给相关各方。
实践的事态管理部分着重于那些由组织定义为事态的受监视状态变化,确定其重要性,并识别并启动对它们的正确响应。有关事件的信息也会被记录,存储并提供给相关方。
监控和事态管理数据和信息是许多实践的重要输入,包括:
●事件管理
●问题管理
●信息安全管理
●可用性管理
●性能或绩效和容量管理
●变更使能
●风险管理
●基础设施和平台管理
●软件开发和管理
●其他。
关键点在于监控是事态管理发生所必需的,但并非所有监控都在事态的检测中产生。阈值和其他准则确定哪些状态更改将被视为事件。同样,重要的是要注意,并非所有事件都具有相同的重要性或需要相同的响应。准则将定义事态的类别发生了什么。按照重要性增加的顺序,典型类别是信息,警告和异常事件。
了解服务的状况和服务组件对于管理它们至关重要。有关服务运行状况和性能或绩效的信息使组织能够对已发生的服务造成影响的事件做出适当的响应(被动性监控),或者根据对过去事件的模式分析采取积极的行动,以防止将来发生不良事件(主动监控)。
监控通过多种不同的方式完成。CI可以通过轮询(即响应监控工具收集特定目标数据的请求)或通过在满足某些条件时自动通知监控工具来共享有关其自身的信息。监控工具对服务组件的质询代表计划实施检查改进,而CI向监控工具发送的通知的收集代表被动监控。
图片2.1监控的类型
注意:当使用计划实施检查改进识别趋势时,它可能有助于识别早于被动监控的趋势(监控工具在CI自身发送信息之前先请求信息)。但是,当使用计划实施检查改进来检测事件时,它可能比被动监控迟一些:在计划实施检查改进中,信息是根据计划收集的,但是与被动监控一起,CI会在事态之后立即共享它。本注释的重要性取决于计划实施检查改进是连续的还是基于间隔的。重要的是要强调,从监控工具到服务和CI的请求之间的间隔时间越长,事件与其注册之间的潜在延迟就越长。
监控利用了正在观察的服务组件的本机监控功能。例如,有关操作系统(OS)的数据(例如磁盘空间,CPU负载,交换使用情况等)已经由OS公开,并指示底层物理资源的使用情况。同样,许多Web服务器,数据库服务器和其他软件都具有内置的监控功能,并将生成度量数据。所有这些数据都可以轻松发送到监控工具。
除了本机监控功能外,监控还采用了专门设计的监控系统。这些是用于监视Web和云应用程序,基础结构,网络,平台,应用程序和微服务的定制软件功能。对于某些服务组件,尤其是内部开发的应用程序,可能有必要向服务中添加自定义工具,例如,代码或接口,这些代码或接口收集并公开对于组织非常重要的度量数据。
尽管监控和事态管理传统上专注于服务的技术组件,但了解其他服务管理资源和活动(包括流程,人员和供应商)的状态也很有用。
指标是监控和事态管理实践的原始数据的来源。监控系统收集,汇总和分析度量标准数据。指标涵盖多个层次,包括:
●低级基础架构指标(主机,服务器,网络和其他)
●应用程序指标(响应时间,错误速率,资源使用情况…)
●服务级别指标,包括基础结构,连接性,基于应用程序和基于服务动作的指标(如果适用)
●第三方服务绩效指标(基于公认的服务级别)
●操作,流程和价值流性能或绩效指标。
对阈值的响应可能有所不同,其中包括:
●创建一个告警或其他通知
●创建一个事件
●先前记录的告警或通知的状况的变更
●向各自的组件或服务启动被动式性能或绩效。
阈值是一种初始过滤可通过监控工具收集的大量监控数据的方法。阈值的值应谨慎定义,以防止生成过多的响应,并压倒资源,人力和机器的响应能力。处理度量数据的其他规则通常与阈值结合,例如事态相关规则和引擎。这些可以由组件供应商规定,由组织定义,或由机器学习支持。
监控和事态管理示例中的一些阈值示例可能是:
•一小时内出现X个以上磁盘错误
•在任何两个连续事件之间,CPU利用率达到或超过N%的次数超过N%的时间少于Z秒的三倍。
警报由监控工具创建和控制,并由监控和事态管理实践管理。警报是监控系统的一个非常重要的方面。发出警报的系统必须具有几个特征,包括:
●高度可靠
●灵活,因此可以通过多种媒体通知操作员
●能够生成详细且可行的通知消息。
对于监控和事态管理,“过度警报”是潜在的危险。出现这样一种情况,即生成的警报数量超出企业的处理能力,并且真正重要的警报丢失在“告警噪音”中。如今,通过人工智能操作(AIOps)和机器学习(ML)启用的警报的汇总,关联和过滤功能,为解决这种潜在的危险提供了解决方法。
服务和服务组件的状态更改在IT环境中连续发生。如该实践中所述,通常可以通过IT服务,CI或监控工具创建的通知来识别它们。为了正确处理和响应数据的流,有必要对传入的信息进行过滤和分类。
状态变更的典型处理数据根据事件的影响将事件放入三个事态组之一,并定义三个相应的响应:信息,警告或异常。
●识别信息事件时,不需要性能或绩效。信息事件提供设备的状况或服务或确认任务的状态。信息事件的示例包括:用户登录,运维完成等。信息性事件表示正常的运维正在发生,并在设置的时间段内存储在日志文件中。组织可以选择在以后的日期分析信息事件,并且可以发现可能有益于服务的主动步骤。信息事件也可以在状况仪表板上发布,以供服务提供者或服务消费者的受众使用。
●警告事件使性能或绩效可以在经历任何负面的影响之前被采取。警告
事件表示发生了异常但不是异常的运维。警告事态通知相应的团队或工具采取必要的措施,以防止发生异常。警告的示例包括:计划的备份未运行,或者资源的使用率在约定的例外阈值的10%之内。
●异常事件表示已达到服务或组件指标的关键阈值。标识为服务或组件性能或绩效的既定规范的违反可能尚未在业务运营上拥有影响。但是,异常事态也可能表示服务或组件正在经历失效,性能或绩效
降级或功能丧失。所有这些都是影响业务运营。无论哪种情况,异常事件都需要性能或绩效,因为它们表示正在发生常规运维的异常。异常事件的示例包括:PC扫描显示未授权软件的安装,服务器关闭,备份失败等。这是监控和事态管理实践启用事件检测的方式。
事态的分类将注意力集中在对于管理和服务交付真正重要的事件上。它可以确保对运行的事件进行适当的跟踪,评估和管理。
监控和事态管理启用事件检测,将其与信息事件和警告区分开。检测到的事件由事件管理实践处理。监控和事态管理还通过提供有关影响服务和服务组件的趋势和事件的信息来启用问题识别。此外,监控和事态管理启用错误控制来解决监控已知的错误,并报告服务和服务组件。已识别的问题和已知错误的错误控制由问题管理实践处理。
Thepurposeofthemonitoringandeventmanagementpracticeistosystematicallyobserveservicesandservicecomponents,andrecordandreportselectedchangesofstateidentifiedasevents.Thispracticeidentifiesandprioritizesinfrastructure,services,businessprocesses,andinformationsecurityevents,andestablishestheappropriateresponsetothoseevents,includingrespondingtoconditionsthatcouldleadtopotentialfaultsorincidents.
Monitoringandeventmanagementisusedtomanageeventsthroughouttheirlifecycletounderstandandoptimizetheirimpactontheorganizationanditsservices.Monitoringandeventmanagementincludesidentificationandcategorization,oranalysis,ofeventsrelatedtoalllevelsofinfrastructureandtoserviceinteractionsbetweentheorganizationanditsserviceconsumers.Monitoringandeventmanagementensuresappropriateandtimelyresponsetothoseevents.
Themonitoringpartofthepracticefocusesonservicesandconfigurationitems(CIs)todetectconditionsofpotentialsignificance,trackandrecordthestateofservicersandCIs,andprovidethisinformationtorelevantparties.
Theeventmanagementpartofthepracticefocusesonthosemonitoredchangesofstatedefinedbytheorganizationasanevent,determiningtheirsignificance,andidentifyingandinitiatingthecorrectresponsetothem.Informationabouteventsisalsorecorded,storedandprovidedtorelevantparties.
Monitoringandeventmanagementdataandinformationareanimportantinputtomanypractices,including:
●incidentmanagement
●problemmanagement
●informationsecuritymanagement
●availabilitymanagement
●performanceandcapacitymanagement
●changeenablement
●riskmanagement
●infrastructureandplatformmanagement
●softwaredevelopmentandmanagement
●others.
Akeypointisthatmonitoringisnecessaryforeventmanagementtotakeplace,butnotallmonitoringresultsinthedetectionofanevent.Thresholdsandothercriteriadeterminewhichchangesofstatewillbetreatedasevents.Similarly,itisimportanttonotethatnotalleventshavethesamesignificanceorrequirethesameresponse.Criteriawilldefinewhatcategoryofeventhasoccurred.Typicalcategories,inorderofincreasingsignificance,areinformational,warning,andexceptionevents.
Knowingthecurrentstatusofservicesandservicecomponentsisessentialformanagingthem.Informationaboutservicehealthandperformanceenablestheorganizationtorespondappropriatelytoservice-impactingeventsthathavealreadyoccurred(reactivemonitoring),ortotakeproactiveactions,basedonpatternanalysisofpastevents,topreventfutureadverseeventsfromoccurring(proactivemonitoring).
Monitoringisaccomplishedbyavarietyofdifferentmeans.CIsmayshareinformationaboutthemselvesthroughpolling,thatis,inresponsetorequestfromamonitoringtooltocollectspecifictargeteddata,orthroughautomaticnotificationtoamonitoringtoolwhencertainconditionsaremet.Interrogationofservicecomponentsbymonitoringtoolsrepresentsactivemonitoring,whereascollectionofnotificationssentbyCIstomonitoringtoolsrepresentspassivemonitoring.
Figure2.1Typesofmonitoring
Note:Whenactivemonitoringisusedtoidentifytrends,itmayhelptoidentifytrendsearlierthanpassivemonitoring(amonitoringtoolrequestsinformationbeforeitissentbytheCIsthemselves).However,whenactivemonitoringisusedtodetectevents,itmaydosolaterthanpassivemonitoring:inactivemonitoringinformationiscollectedaccordingtoaschedule,howeverwithpassivemonitoringitissharedbytheCIimmediatelyaftertheevent.Thesignificanceofthisnotedependsonwhetheractivemonitoringiscontinuousorinterval-based.ItisimportanttohighlightthatthelongertheintervalsarebetweenrequestsfrommonitoringtoolstoservicesandCIs,thelongerthepotentialdelaywillbebetweeneventsandtheirregistration.
Monitoringleveragesthenativemonitoringfeaturesoftheservicecomponentsthatarebeingobserved.Forexample,dataaboutoperatingsystems(OS)suchasdiskspace,CPUload,swapusage,etc.isalreadyexposedbyOS’sandindicatestheusageofunderlyingphysicalresources.Similarly,manywebservers,databaseservers,andothersoftwarehavebuilt-inmonitoringcapabilitiesandwillgeneratemeasurementdata.Allthisdataiseasilysenttoamonitoringtool.
Inadditiontonativemonitoringfeatures,monitoringalsoemploysdesigned-for-purposemonitoringsystems.Thesearecustom-builtsoftwarefeaturesforobservingwebandcloudapplications,infrastructures,networks,platforms,applications,andmicroservices.Forcertainservicecomponents,especiallyapplicationsdevelopedin-house,itmaybenecessarytoaddcustom-builtinstrumentationtotheservices,i.e.codeorinterfaceswhichcollectandexposethemeasurementdatathatisimportantfortheorganization.
Althoughmonitoringandeventmanagementistraditionallyfocusedontechnologycomponentsofservices,itcanalsobeusefultounderstandthestateofotherservicemanagementresourcesandactivities,includingprocesses,people,andsuppliers.
Metricsaresourcesoftherawdataforthemonitoringandeventmanagementpractice.Metricsdataiscollected,aggregated,andanalysedbythemonitoringsystems.Metricsrangeacrossmultiplelayers,including:
●low-levelinfrastructuremetrics(host-,server-,network-andothers)
●applicationmetrics(responsetime,errorrate,resourceusage…)
●servicelevelmetrics,includinginfrastructure-,connectivity-,application-basedandserviceaction-based,whereapplicable
●third-partyserviceperformancemetrics(basedonagreedservicelevels)
●operations,process,andvaluestreamperformancemetrics.
Responsestoathresholdvaryandmayinclude:
●creatinganalertorothernotification
●creatinganincident
●changeofastatusofapreviouslyrecordedalertornotification
●initiatingareactiveactiontowardstherespectivecomponentorservice.
Thresholdsareawayofinitiallyfilteringthevastamountofmonitoringdatawhichcanbecollectedthroughthemonitoringtools.Thresholdvaluesshouldbedefinedwithadegreeofcaretopreventtoomanyresponsesbeinggeneratedandoverwhelmingtheresources’,humanandmachine,abilitytorespondtothem.Otherrulesforprocessingthemeasurementdataareusuallycombinedwiththresholds,suchaseventcorrelationrulesandengines.Thesecanbeprescribedbycomponentvendors,definedbytheorganization,orsupportedbymachinelearning.
Someexamplesofthresholdsinmonitoringandeventmanagementexamplescouldbe:
•MorethanXdiskerrorsinanhour
•CPUutilizationreachesorexceedsN%threetimeswithlessthanZsecondsbetweenanytwoconsecutiveevents.
Alertsarecreatedandcontrolledbymonitoringtoolsandaremanagedbythemonitoringandeventmanagementpractice.Alertingisaveryimportantaspectofamonitoringsystem.Thealertingsystemmusthaveseveralcharacteristics,includingbeing:
●highlyreliable
●flexible,sothatitcannotifyoperatorsthroughmultiplemedia
●capableofgeneratingdetailedandactionablenotificationmessages.
“Over-alerting”isapotentialdangerformonitoringandeventmanagement.Asituationariseswheremorealertsaregeneratedthantheenterprisecandealwithandwheretrulysignificantalertsbecomelostinthe‘alertnoise’.Aggregation,correlation,andfilteringofalerts,nowadaysenabledbyartificialintelligenceoperations(AIOps)andmachinelearning(ML),providetheremedyforthispotentialdanger.
ChangesofstateforservicesandservicecomponentsoccurcontinuouslyintheITenvironment.Asmentionedinthispractice,theyaretypicallyrecognizedthroughnotificationscreatedbyanITservice,CI,ormonitoringtool.Toproperlyhandleandrespondtothestreamofdata,itisnecessarytofilterandcategorizetheincominginformation.
Typicalprocessingofchange-of-statedataplaceseventsintooneofthreeeventgroupsbasedontheirimpactanddefinesthreerespectiveresponses:informational,warning,orexception.
●Informationaleventsdonotrequireactionatthetimetheyareidentified.Informationaleventsprovidethestatusofadeviceorserviceorconfirmthestateofatask.Examplesofinformationaleventsinclude:auserlogin,anoperationcompleted,andsoforth.Informationaleventssignifythatregularoperationisoccurringandarestoredinlogfilesforasetperiod.Theorganizationmaychoosetoanalysetheinformationaleventsatalaterdateandmayuncoverproactivestepsthatcanbebeneficialtotheservice.Informationaleventscanalsobepublishedonstatusdashboardsforserviceprovider’sorserviceconsumer’saudience.
●Warningeventsallowactiontobetakenbeforeanynegativeimpactisexperienced.Warning
eventssignifythatanunusual,butnotexceptional,operationisoccurring.Awarningeventnotifiestheappropriateteamortooltotakenecessaryactionstopreventanexceptionfromoccurring.Examplesofwarningsinclude:scheduledbackupsarenotrunning,orresourceutilizationiswithin10%oftheagreedexceptionthreshold.
●Exceptioneventsindicatethatacriticalthresholdforaserviceorcomponentmetrichasbeenreached.Thisidentifiedbreachofanestablishednormfortheserviceorcomponentperformancemaynotyetbehavinganimpactonbusinessoperations.However,theexceptioneventmayalsoindicatethataserviceorcomponentisexperiencingafailure,performance
degradations,orlossoffunctionality.Allofwhichimpactbusinessoperations.Ineithercase,exceptioneventsrequireaction,astheysignifythatanexceptiontoregularoperationisoccurring.Examplesofexceptioneventsare:aPCscanrevealstheinstallationofunauthorizedsoftware,aserverisdown,abackuphasfailed,etc.Thisishowdetectionofincidentsisenabledbythemonitoringandeventmanagementpractice.
Eventcategorizationfocusesattentionontheeventsthataretrulysignificantforthemanagementanddeliveryofservices.Itensuresthatoperationaleventsaretracked,assessed,andmanagedappropriately.
Monitoringandeventmanagementenablesthedetectionofincidents,distinguishingthemfrominformationeventsandwarnings.Detectedincidentsarehandledbytheincidentmanagementpractice.Monitoringandeventmanagementalsoenablesproblemidentificationbyprovidinginformationabouttrendsandeventsaffectingservicesandservicecomponents.Inaddition,monitoringandeventmanagementenableserrorcontrolforknownerrorsbymonitoringandreportingonservicesandservicecomponents.Identifiedproblemsanderrorcontrolforknownerrorsarehandledbytheproblemmanagementpractice.
IT运维管理社区专家团队仅仅只是进行了这些著作的语种转换工作,我们并不拥有包括原著以及中文发行文件的任何版权,所有版权均为Axoles持有,读者在使用这些文件(含中文翻译版本)时需完全遵守Axoles和TSO所申明的所有版权要求。
|