随着互联网产品规模的爆发式增长,大型分布式系统的监控复杂性也日益显现。工程师们发现:监控遗漏导致宕机的黑天鹅现象频繁发生;出现故障时很难从海量监控指标中迅速找到故障根因;报警风暴极大地干扰了工程师定位问题的速度;故障恢复速度基本依赖于工程师的操作速度。由此,我们尝试建立一个智能运维监控系统,希望用智能化手段去帮助工程师解决这些问题。 在本议题中,我们会以实际例子来讲解,在百度我们是如何帮助产品完成智能化运维监控之路的。主要包含如下一些内容: 如何发现商业数据与运维数据的关系 如何进行异常的自动检测 如何解决报警风暴 如何进行自动故障定位 如何形成发现+定位+止损的监控闭环