×

微信扫一扫,快捷登录!

标签: 暂无标签


粘贴上传202501111518408900..png








本报告针对某互联网公司运维平台技术方案进行了深入探讨,该方案由运维平台负责人在GOPS全球运维大会2020城市站上进行分享。报告聚焦于金融与互联网融合背景下的运维挑战,详细论述了该公司运维平台的整体解决方案,涵盖了统一变更体系与故障处理体系,其核心目标在于全面应对不确定性,降低未知风险对业务连续性的影响,确保业务的高可用性。

项目背景
金融与互联网的深度融合导致业务量激增,呈现出海量、实时、全天候不间断的特征,例如每秒十万次以上的支付、百万次以上的入账、以及每天十亿次以上的业务量。用户对业务的可用性(>99.999%)、响应速度(<200ms)以及安全性(资金保障)提出了极为严苛的要求。面对硬件的不可靠性、程序的潜在缺陷、人为操作失误等不确定性因素,运维平台面临严峻挑战。

整体解决方案
整体解决方案的核心目标在于最小化故障对业务连续性的影响时间,确保变更对业务连续性的影响可控制,并持续降低业务连续性的潜在风险。解决方案具体涉及故障处理、统一变更和持续运营三个主要方面。

统一变更体系
统一变更体系致力于实现业务的无损变更,确保在变更过程中不引发故障。通过统一的系统化管理、灰度发布和回退机制,实现变更记录的可追溯性和快速恢复能力。难点在于确保变更对现网的影响可控,并达到现网级别的可用性。具体方案包括具备切换能力的灰度发布规则、发布即生效一致性解决方案,以及双城双活的高可用发布平台。灰度发布规则依据业务优先级、逐步放量的流量控制、单步骤内单边变更的原则,同时具备流量切换、版本回退和基线回退等兜底能力。发布即生效一致性解决方案通过版本库、CI/CD流水线中心、发布中心等环节,确保本地合入检查、线上版本比较、业务生效/异常检查等步骤的正确性,并通过三方对账确保非正常流程的一致性。双城双活发布平台则通过无状态server、读写分离、外部依赖本地化等措施,实现高可用性。

故障处理体系
故障处理体系的核心目标是迅速恢复故障,减少对业务的影响。整体策略是通过自动切换机制解决高频已知故障,人工切换作为所有故障处理的最终保障。具体方案涵盖了故障发现、故障定位、故障处理和故障复盘等环节。故障发现环节利用流控方案、数据时效性与稳定性平衡方案、AIOPS1.0和AIOPS2.0等技术手段,实现告警的快速、准确配置。故障定位环节采用双向分析法,包括向上影响评估分析和向下故障初因分析,以实现快速止损。故障处理环节通过容灾白皮书、故障演习和运维管家等工具,确保故障处理能力的完备性和有效性。故障复盘环节则通过总结经验教训,持续优化故障处理流程。

未来思考
报告最后提出了对运维平台未来发展的思考,涉及接入即服务、开放能力、智能运维等多个方面。接入即服务强调整合效能、组件、运维等能力;开放能力侧重于标准化和个性化能力的开放;智能运维则包括故障自愈、自动发布、自动扩缩容等功能。此外,报告还探讨了统一值班、持续运营、运维服务度量、运维交付流水线等运维管理方面的思考,以及磐石运维基础设施层、磐石运维管理设备agent、磐石运维平台业务逻辑层、磐石运维能力交付层等技术架构层面的规划。







上一篇:信息技术运维管理智能化实践策略(IT运维管理)
下一篇:平安科技在人工智能运维管理(AIOPS)建设方面的实践经验分享(IT运维管理)
slbenben

写了 1742 篇文章,拥有财富 10784,被 10 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by IT 运维管理
返回顶部