为了支持海量用户和多元化的业务,基础设施和系统会趋于复杂。业务的高速发展的同时,对于稳定性也有非常高的要求。从 2011 年到 2015 年,电商域遇到了很多有代表性的故障,积累了非常多的高可用保障经验和解决方案。然而任何基础设施、系统、人、流程都可能出问题,且问题一直在发生。2016 年,我们研发了故障演练系统,把故障以场景化的方式沉淀到系统中,在线上主动回放故障,验证监控报警、限流降级、故障迁移、容灾策略、故障处理的有效性。在双 11 备战中,设计了数百个演练场景设计,通过几十次的演习,发现并解决了大量的问题。 本次分享会探讨经典的故障类型,剖析故障成因,提出解决方案,介绍故障演练系统的设计和演进,提出故障演练的原则和经验。
浏览4723次
浏览11625次
浏览3065次
浏览1444次
浏览878次
浏览1748次
2025-06-20 深圳
2025-09-06 杭州
2025-10-23 上海
2025-06-12 上海
打开微信扫一扫,分享到朋友圈
Text