本报告旨在分享一家金融机构在构建自动化运维系统方面的实践经验与成果。报告详细探讨了建设背景、存在的问题、总体规划设计以及自动化运维系统的实施过程,旨在为其他机构提供可借鉴的经验。
建设背景与问题 随着业务的快速发展,金融科技的推动作用日益凸显,业务系统的数量持续增长,相应的软硬件基础设施亦日益庞大。这一趋势导致运维工作的难度和复杂性显著增加,规范化和精细化的运维难以有效实施,运维中的痛点问题不断涌现,增加了运维风险,影响了业务的连续性。主要问题包括: 1. 信息资源数据管理困难:采用多张EXCEL表格维护服务器和应用系统的软硬件资源信息,数据无法实现共享和及时同步更新,导致数据错误率高,容易造成运维工作的误判。 2. 基础监控盲点多:信息资产繁多且更新迅速,监控部署和清除无法及时跟进变化,导致未被监控的系统存在较大风险。 3. 运维效率低下:运维人员忙于软硬件与运行环境的部署、安装、创建与配置,整体运维效率不高,精细化水平有限。 4. 运维操作风险高:运维人员技能水平参差不齐,无法充分利用更多运维人力资源,释放操作员的主观能动性,团队运维的价值和力量未能充分体现。 5. 巡检效率低下:巡检点众多,类别繁杂,覆盖范围广,依靠人工单个巡检无法全面覆盖,巡检结果未归档和保留,导致运维巡检数据丢失。 6. 资源和环境申请繁琐:应用资源和环境的申请源源不断,导致运维人员大量时间消耗在环境部署和复核方面,未及时复核的、不满足配置与基线规范的系统存在较大的安全风险隐患。
总体规划设计 为有效解决现有问题,该机构在运维领域坚持自主创新与科技驱动并重,推动运维工作向信息化、数字化、自动化、智能化、场景化转型。具体规划包括: 1. 监控体系架构:构建终端性能和体验监控系统,从业务层、网络层和应用层三个层面建立专业监控系统,与现有基础监控子系统相结合,全面实时监控业务系统各个层面的指标状态。 2. 自动化运维体系架构:构建自动化运维系统、自动化批量调度、自动化投产上线三个维度的自动化体系,结合上层可集成整合化的自动化运维平台,满足生产系统端到端自动化运维的需求。 3. 智能运维体系架构:通过建立运维大数据平台,整合所有基础性能数据、用户终端性能数据、网络性能数据等,进行智能分析,定位告警源。 4. 多系统、平台间联动体系:统一CMDB为所有系统和平台提供统一的配置基准数据,自动化运维平台自动采集和发现价值数据,集中监控平台实时收集所有事件和告警,运维大数据通过多样化方式集成各系统和平台的数据。
自动化运维系统实践 在总体规划设计的基础上,该机构开展了自动化运维系统、批量调度自动化、自动化投产三位一体的自动化运维平台建设工作。重点介绍了基于开源Ansible软件和CMDBuild软件自主部署的自动化运维系统。通过Shell脚本,开发了若干实用功能的自动化、批量运维的友好窗口界面,并自主搭建了CMDB,便于软硬件资源集中管控。该系统显著提升了运维工作的效率,减轻了运维人员的工作压力,并标准化了运维操作,同时规避了人工直接运维带来的操作风险。
主要功能和实践效果包括: 1. 理顺双数据中心软硬件资源及关联关系:通过CMDB与Ansible环境搭建,自动获取CPU、内存、硬盘容量、操作系统版本、软件组合和版本等信息,同步流程平台数据,实现数据共享和准确性。 2. 自主实现监控点的自动发现:调用Ansible模块获取监控平台所有监控点的数据信息,结合CMDB数据,自动发现尚未监控的计算实例,更新相关数据至CMDB。 3. 自主实现批量自动化运维:通过菜单式的一键式部署界面,运维人员只需批量输入IP地址即可完成部署,释放运维人员压力,减轻工作任务。 4. 将常用运维批量查询及操作菜单化:通过自动化运维界面,一线运维人员可在不直接登录需维护的主机的情况下,通过选择常用运维操作并批量输入IP地址的方式,自动调用Ansible模块在主机上执行运维操作。 5. 自主实现故障日志一键式收集、运维一键式巡检及巡检报告生成:通过自动化运维系统的操作菜单,批量输入IP地址,即刻开始自动巡检其上可能存在的数据库、中间件、操作系统和高可用架构软件等,并生成巡检报告。 6. 自主实现系统上线配置与基线自动化、批量核查:将标准规范进行表数据格式化,通过自动化运维系统比对标准规范与实际落地的配置参数间的差异性,即刻进行整改,完成标准的应用环境交付。
该机构通过自主开发的自动化运维系统,成功解决了信息资源数据管理困难、基础监控盲点多、运维效率低下、运维操作风险高、巡检效率低下和资源环境申请繁琐等痛点问题。通过总体规划设计和具体实践,实现了运维工作的信息化、数字化、自动化、智能化和场景化转型,显著提升了运维效率和质量,降低了运维风险,为业务的连续性和稳定性提供了有力保障。
|