随着滴滴的高速发展,业务与系统越发复杂,数据及监控指标量也呈指数增长,监控系统自身的稳定性面临更大挑战,我们在监控指标生产、计算、存储方向进行了多项实践,采取了有针对性的技术选型以应对不同的应用场景,使得系统在海量指标存储、高效灵活的聚合计算、异常指标的快速详情关联等方向取得较高的稳定性与较好的应用效果。 监控指标的飞速膨胀给异常检测技术提出了挑战,传统的阈值配置方案已经无法应对,因此我们引入了多项机器学习技术,在智能阈值、三阶指数平滑、概率密度、指标特征挖掘与聚类等方向进行深度实践,初步形成了在无标注条件下对各类指标进行智能异常检测的机制,目前已经覆盖十万级别的监控指标项,并且取得了较好的准确率与召回率平衡; 随着系统复杂度提升,监控报警后故障的定位难度越来越高,定位速度缓慢,我们借鉴Google的Dapper在滴滴落地了系统调用链路追踪系统,同时融合了滴滴自身的司机、乘客与订单的业务链路追踪技术,使得业务与系统故障时可以快速的进行数据关联与追踪分析,精准定位问题根源,整体故障定位效率大幅提升。
浏览5249次
浏览9013次
浏览4216次
浏览7851次
浏览3066次
浏览8382次
2025-01-08 昆明
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
打开微信扫一扫,分享到朋友圈