×

微信扫一扫,快捷登录!

标签: 暂无标签





各位技术大佬们,今天给大家带来一份超给力的报告!这可不是一般的报告哦,这是在GOPS全球运维大会2020城市站上,一位运维平台的大佬亲自分享的干货!
   
   
现在咱们聊聊金融和互联网结合后,运维遇到的那些事儿。想象一下,每秒十万+的支付,百万+的入账,还有每天十亿+的业务量,这得多大的压力啊!用户们对咱们的要求也是杠杠的,业务得99.999%在线,响应速度得小于200毫秒,还得保证资金安全。这不,运维平台的小伙伴们就得面对硬件故障、程序bug、人为失误等一大堆不确定因素的挑战。
   
   
那么,怎么解决这些挑战呢?咱们的运维平台大佬们可是有绝招的!他们的整体解决方案就是让故障对业务的影响降到最低,让变更变得可控,还要不断减少隐患,确保业务的高可用性。具体来说,就是搞定故障处理、统一变更和持续运营这三个方面。
   
   
来,咱们先说说统一变更体系。这个体系的目标就是让业务变更时零故障,变更过程要能追溯,出了问题能快速恢复。这里面的难点就是确保变更对现网的影响可控,还要达到现网级别的可用性。具体方案嘛,包括灰度发布规则、发布即生效一致性解决方案,还有双城双活的高可用发布平台。灰度发布规则得按业务优先级来,流量慢慢放,一次只动一边。发布即生效一致性解决方案得确保各个环节都正确无误,还得有三方对账来保证一致性。双城双活发布平台得用无状态server、读写分离、外部依赖本地化等招数,保证高可用性。
   
   
接下来,咱们聊聊故障处理体系。这个体系的核心就是快速恢复故障,减少对业务的影响。整体思路就是自动切换来解决高频已知故障,人工切换来兜底所有故障处理。具体方案包括故障发现、故障定位、故障处理和故障复盘等环节。故障发现得靠流控方案、数据平衡方案、AIOPS技术等,快速准确地配置告警。故障定位得用双向分析法,快速止损。故障处理得靠容灾白皮书、故障演习和运维管家等工具,保证故障处理能力。故障复盘得总结经验教训,优化流程。
   
  
报告里还提到了运维平台的未来展望,包括接入即服务、开放能力、智能运维等方面。接入即服务就是整合各种能力;开放能力就是标准化和个性化;智能运维就是故障自愈、自动发布、自动扩缩容等功能。还有运维管理方面的思考,比如统一值班、持续运营、服务度量、交付流水线等。技术架构层面的规划,比如磐石运维基础设施层、磐石运维管理设备agent、磐石运维平台业务逻辑层、磐石运维能力交付层等。
   
粘贴上传202412291448263621..png




上一篇:IT运营智慧化实践方案,更着重于通过智能化的工具和方法
下一篇:平安科技在AIOPS建设方面的实践经验分享~
orange78

写了 58 篇文章,拥有财富 351,被 0 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by IT 运维管理
返回顶部