ITSS监控平台和自动化运维平台目前存在的问题
本帖最后由monicazhang于2015-11-611:22编辑20151106淡然续上
3.4运维支撑3.4.1现状描述除了ITSM流程管理系统外,支撑某公司IT运维工作的还包括监控平台和自动化运维平台,以“集中交易系统”为例,其集中监控平台:n集成标准监控指标和自定义的业务监控指标;ITSS考试n事件以文字、颜色、声音报警,通过短信通知等方式发送给当事人;n以多种维度进行组合视图展示;n性能记录在数据库,便于分析和改进。图3.6集中交易系统——集中监控平台
其自动化运维平台:n操作自动化:开闭市流程一键执行、定时自动执行任务、批量升级打系统补丁等、系统批量重启等,同时将执行结果的成功或失败信息以图形化的形式展现;n健康检查:手工批量或自动地对应用的所有关键环节进行巡检,可以生成检查记录和报告;n应急管理:管理应急过程的自动化脚本、动作录制等,提供主备快速一键式切换功能,提高切换的质量和效率;n模拟业务检查:发送正常的业务操作,检查业务是否结果正常(主要是用测试账号做查询或废单业务等);n统一门户:可集成在公司的门户网站、VPN或IT运营平台等,可统一登录和认证;n展示大屏:对执行过程,应用状态直观显示,如仪表盘等显示方法。图3.7集中交易——自动化运维平台
3.4.2关键发现在前期的访谈调研中,有集中交易系统管理员担心“有的系统管理员对自动化报警缺乏关心,系统已报警,短信邮件推出后,仍不处理。”同时,对于自动化系统而言,“自动化系统控制系统较多,当自动化系统故障时,所有系统需恢复手工操作,需各系统管理员有应急手段,并定期演练手工启动。”在访谈过程中,我们对集中交易系统的自动化运维任务也做了相关统计:ITSS认证表3‑4自动化运维任务统计
任务名称
执行时间
手动操作文档
与实际步骤一致
手动执行时间
及时更新操作文档
操作成败标志
开市业务
7:54-9:14
有
是
110min
是
是
闭市业务
3:14-17:05
有
是
110min
是
是
日常维护
视任务不同而不同
有
是
N/A
是
是
巡检报表
5分钟
有
是
25min
是
是
系统升级
15分钟,视升级不同而不同
有
是
120min
是
是
业务模拟
一般在5分钟内执行完毕
有
否
15min
是
是
定时任务
视任务不同而不同
有
否
N/A
是
是
应急切换
基本单个切换在5分钟之内
有
是
15min
是
是
通过上表可以看出,在自动化系统无法完成任务时,手动执行确实需要花费较多时间,在手动操作文档完备并及时更新的条件下,管理员的操作熟练程度将是应对此类风险的关键。ITSS培训
待续http://www.ITILxf.com/thread-52995-1-1.html本帖关键字:ITSS
页:
[1]