运维工作中,通常会通过制定标准来预防风险、沉淀经验以及和周边团队形成共识。但常出现的情况是标准的影响会随着时间而减小,甚至被遗忘抛弃。一个较好的解决办法是将标准落地到各个平台,由平台来保证标准的执行。但这也有一些难以解决的问题: 标准有控制不了的部分:有一部分风险是标准无法控制的,比如一个业务线频繁的出现上线回滚,但标准并不能规定上线不能回滚或回滚的比例,这样的业务线我们如何驱动他们自省? 标准有弹性的部分:标准中通常也有一些需要人为拿捏的部分,比如变更在灰度阶段的暂停检查时长,通常是越长越安全,但平台通常只能约束到一个固定值。如何驱动大家做更充分的检查呢? 标准有被打破的特殊情况:比如标准规定禁止在业务高峰期变更,但由于紧急的问题修复或业务需要,又必须临时批准部分操作,这样的操作风险如何控制? 缺少风险的全局视图:通常SRE在push业务线做标准改进和控制的时候都只能针对一些局部进行推进,同时业务线的负责人也看不到全局的情况和风险的严重程度,因此推动较为困难,如何破解? 基于以上问题,滴滴建立了一套完善的风险量化体系,通过自动采集用户的平台操作数据、运维数据并自动计算量化出每个业务线的运维风险,落地到一个具体的分数,最终形成排名和竞赛机制,以达到促进标准长效执行的目的。本主题将重点介绍滴滴如何建设这套运维风险量化体系并成功运转长期有效降低业务运维风险的实践,同时还将分享建设和落地这套风险量化体系的实践心得。
浏览7444次
浏览1232次
浏览3279次
浏览5274次
浏览4224次
浏览4593次
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
2025-05-23 上海
打开微信扫一扫,分享到朋友圈