我们今天面临的问题,云、支付和交易的程序通过虚拟化打散在百万级的服务器上,任何一次硬件故障都可能影响到重要的业务。 面对如此庞大的基础设施:百种机型、万种应用、百万服务器、千万部件,再加上不同业务对故障的敏感程度不一致,传统的运维方法受到了极大地挑战,海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。本专题主要分享在无高质量样本的情况下,通过关联分析和异常检测算法,构建算法闭环。自动迭代,让批量问题的预测精度不断提高。打通故障定位和装机系统,提供从发现->定位->跟踪->修复的一站式解决方案。产品上线以来,在数据能覆盖的场景下,实现了100%的发现率。