×

微信扫一扫,快捷登录!

标签: 暂无标签

粘贴上传202501111537213389..png






本研究聚焦于云主机无人值守与自助服务的实战案例分析,由XX公司资深技术专家滕圣波(云普)在GOPS全球运维大会2020深圳站发表演讲。报告从无人值守的必要性、自助服务实现无人值守目标的途径、智能诊断、自动化修复以及AI与数据能力支撑等五个维度,深入探讨了云主机无人值守与自助服务的实践经验和应用成果。

无人值守的必要性:
报告首先阐述了运维作为服务的本质,指出服务对象为使用基础设施的业务团队。云计算IAAS作为一种运维服务,其服务对象为使用云服务的开发和运维团队。随着云计算技术的演进,如何避免随着规模扩大而带来的客户侧运维成本的线性增长成为关键需求。目前,客服现状依赖于大量人力投入,客户面临的问题包括高昂的运维成本、缓慢的响应时间以及隐私泄露的风险等。

自助服务实现无人值守目标:
报告提出,IAAS运维的细分领域包括库存管理、资源保障、调度策略、冷热迁移、虚拟化技术、块存储、网络架构、机房设施、物理设备等基础设施层面,以及管控系统、基础产品、服务侧运维(用户不可见的运维)、事件监控、客户服务、工单响应、扩容操作、系统重启、IP地址修改、资源编排ROS、运维编排OOS等客户侧运维(用户可见的运维)。广义自助服务涵盖诊断、修复、推荐等环节,其服务水平是云服务提供商的核心竞争力。自助服务能够覆盖80%的ECS常见问题,将问题解决周期从数小时缩短至分钟级别,无需人工干预,有效避免隐私泄露风险。通过AI与数据技术的结合,实现了越来越精准的问题诊断与修复。

智能诊断的自助服务:
报告详细阐释了云服务器(ECS)实例的智能诊断机制,涉及磁盘扩容未生效、实例性能异常、实例启动/停止失败、实例远程访问不可达等问题。一键启动ECS健康诊断功能,能够覆盖ECS服务问题、虚拟化异常、底层物理机故障、实例配置问题、磁盘问题、网络问题、Guest OS问题等。ECS诊断能力一览表展示了具体的诊断能力,而ECS智能诊断演示则展示了诊断结果。

自动化修复的自助服务:
报告介绍了ECS实例的自动化修复功能,包括ECS修复能力一览表,展示了具体的修复能力。修复能力的透明合规性体现在自动化修复、运维编排服务OOS提供的自动化引擎、云助手命令提供的GuestOS内执行能力、修复逻辑的完全可见性、OOS公共模板和云助手公共命令代码的开源、修复操作的可回滚性、镜像、快照、数据备份、记录的可审计性、阿里云操作审计ActionTrail、权限的完全可控性、阿里云RAM角色控制等方面。智能诊断修复的演示展示了具体的修复流程。

自助服务背后的AI与数据能力:
报告最后探讨了诊断修复背后的AI与数据能力,涵盖数据采集、数据清洗、数据分析、数据模型构建、特征分类、预测与推荐、行为分析、专家经验、决策树、客户画像、态势感知、根因分析、异常诊断、自动修复、优化推荐等。AI驱动的自助服务架构和AI驱动的异常处理展示了具体应用实例。AI应用案例包括实时内存异常感知、准确率超过70%、实时预测链路延时控制在100秒以内、内存异常原始数据、内存异常数据、异常特征、实时预测模型、投票模型、预测数据、主动运维、模型效果分析、宕机事实验证。AI应用案例:诊断决策树展示了具体的决策过程。背后的数据包括监控数据、特征数据、事件通知、运维动作、查询分析、分类、格式标准化、可视化、物理机数据、虚拟化数据、网络数据、控制面数据、GuestOS内数据、实时数据、准实时数据、离线数据、数据处理、数据采集。数据采集部分提到,阿里云ECS在过去两年持续投入构建异常宕机数据集,未来计划将其发展成为XX集团在异常预测领域的“ImageNet数据集”,并计划开源,以期为异常预测技术在行业内的发展贡献更大的价值。

本研究为云主机无人值守与自助服务提供了宝贵的实践经验,展示了如何通过智能诊断、自动化修复、AI与数据能力的综合应用,提升运维效率,降低运维成本,为业界提供了可借鉴的实践路径。







上一篇:云计算对信息科技运维管理的影响(IT运维管理)
下一篇:智能运维算法及其应用场景分析(信息技术运维管理)
slbenben

写了 1742 篇文章,拥有财富 10784,被 10 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by IT 运维管理
返回顶部