本研究旨在探讨某金融应用程序的IT运维监控稳定性,并分享相关经验。该报告由国内领先的数字化时代IT服务管理交流平台ITIL先锋论坛提供。报告内容涵盖蚂蚁客户端可观测体系的介绍、客户端可观测技术面临的挑战、客户端可观测核心技术的分享以及开源技术的演进与贡献,全面阐述了该金融应用程序在运维监控方面的实践与经验积累。
蚂蚁客户端可观测体系概述: 报告首先对客户端的常见表现形式和技术发展趋势进行了阐述,指出客户端架构日益复杂化,用户体验成为用户价值传递的关键环节。客户端从瘦客户端向富客户端的演进,使得端到端全链路全栈监控成为可观测体系中缺失的重要环节。客户端平台化(例如微信、支付宝小程序)使得真实环境下用户行为与体验的分析变得至关重要,有效弥补了单一环境测试的局限性。
在客户端整体目标观测覆盖的介绍中,报告涵盖了观测、告警、分析、质量洞察、平台开放、高可用保障等多个方面,涉及App存储、小程序、支付、直播、版本发布、App性能等多个业务场景。客户端运维保障合作团队与用户分析部分,展示了与上层业务平台系统、用户分析、支付宝App、小程序质量洞察平台、客户端发布平台、质量保障与运维、行业保障平台、客户端高可用保障平台等多个合作团队和用户分析工具的对接。
客户端可观测技术难点探讨: 报告指出,客户端可观测技术难点与业界普遍面临的问题相似,主要涉及Metrics、Logging、Tracing三个方面。客户端数据的复杂性、混乱性和多样性具体表现为: - Trace:客户端内部Trace链路的价值低于服务端,且客户端Trace与服务端Trace之间基本割裂。 - 日志:设备数量庞大,客户端日志体量巨大,需要进行大量的采样和还原操作。App长期历史版本共存,日志格式与App版本绑定,处理上存在困难。 - Metric:App长期历史版本共存,Metric内容和语义历史负担沉重。数据维度爆炸,需要将各种变化因素都标记到tag中,导致维度组合过多。 客户端的可观测业务需求包括用户自定义支持、实时性、场景多样性、海量异常设备洞察、深度下钻、客户端监控与观测业务场景覆盖、合作开放、海量日志等。技术问题归纳为海量数据处理、水平伸缩架构、维度(Tag)爆炸与多维分析、采集与埋点规范等。
客户端可观测核心技术分享: 报告详细介绍了客户端可观测核心技术的整体架构,包括维度服务、智能告警、数据开放服务、观测产品、洞察分析等。运行时架构涉及registry、scheduler、预警计算、定时生成任务、采集客户端、数据清洗+缓存、Spark计算、分析型时序数据库CeresDB、服务API、DimService等组件。 在解决方案部分,报告重点介绍了分析型时序数据库CeresDB,包括数据存储结构、计算存储分离与弹性架构、查询性能优化等方面。CeresDB支持海量时间线场景下的数据分析能力,提供列式存储,无需倒排索引即可进行查询,依赖剪枝和高效的Scan加速分析查询。CeresDB还支持分区表、存算分离特性、多级缓存层次的构建,以及性能一致性优化。
开源与技术演进: 报告最后强调了从开源中汲取养分的重要性,并提出将蚂蚁在可观测领域的技术贡献给开源社区,共同创造价值。介绍了两个项目:高性能云原生时序数据库和一站式智能可观测平台。
本研究为金融应用程序的稳定性IT运维监控提供了宝贵的实践经验,展示了如何通过构建客户端可观测体系,克服技术难点,优化核心技术,实现开源与技术演进,从而提升系统的稳定性和用户体验。
|