创业公司,运维需求变化快,资源相对有限。IT基础设施建设要以速度为中心,快速响应,降低成本,稳定安全的运维要求。因此简化流程,提高效率,以DevOps思想为指导,建设一套基于容器的持续集成发布平台成了新兴公司的首选。本次分享以跟谁学容器平台建设为实例,深入讨论以k8s docker,jenkins等软件架构出一套的可以自动配置、注册、发布、服务、测试的持续集成容器平台。本演讲主要面向企业CTO/技术总监/架构师/运维总监/高级运维开发人员,需要有一定IT基础,并希望进行持续集成以及容器化的公司或团队。
2017年10月19日-21日,由IT 168主办的第九届系统架构师大会在北京新云南皇冠假日酒店盛大开幕,“智能化运维&DevOps”技术专场中来自美团外卖业务架构组负责人刘宏伟,为我们分享了美团外卖自动化业务运维系统的建设。
流程复杂、流量陡增、业务迅猛是美团外卖的三大特点
外卖业务的流程十分复杂,从用户下单、商家接单、骑手接单、发配送、用户收到热乎乎的外卖,这一系列流程需要在20多分钟之内完成。而且其后台服务交互也十分复杂,整个产品线上涉及很多数据分析,统计,结算,合同等各个端的交互,一致性要求高,并发高。
外卖业务每天10点开始开始陡增,在11:30左右达到午高峰,在这短短的90分钟内流量会陡增5倍多,而且这个流量陡增是周期性变化的,每天都会重演一次。
除此之外,美团外卖的另一个特点就是业务增长十分迅猛,2013年上线到现在,只用了不到四年时间,其日提单就从0暴涨到2000万,日完成订单1600万。刘宏伟表示,其业务产品一直处在高速迭代,某个数据访问服务组日均120亿+访问, qps 近40万了,午高峰只要发生一个小小的事故,就会引起比较大的损失。
业务发展倒逼技术进步,美团外卖运维工作的新挑战
基于以上发展特点,刘宏伟表示美团外卖业务运维工作存在以下挑战:各种维度的事件通知、报警充斥着开发人员的IM,需要耗费很多精力去优化配置报警阈值、报警等级才不会出现很多误报;公司有多套监控系统,但是它们之间没有关联性,开发人员在排查问题时需要带着参数在不同的系统之间切换;代码中会有大量的降级限流开关,但随着产品快速的迭代,无法确定这些开关是否还有效。
运维人员在日常工作中的排查经验完全实现流程标准化,并在进一步实现计算机自动化。在问题的定位和诊断越来越准确时,可以进一步减少人为干预,实现问题排查流程智能化,真正将人从日常运维工作中解放出来。
积基树本,美团外卖的重点系统体系建设
任何一件事情的完成都不是一蹴而就的,而是循序渐进、不断演变的,美团外卖自动化业务运维系统的建设也不例外。据刘宏伟介绍目前美团外卖的重点系统体系建设包括体系架构、业务大盘、核心链路、服务保护&故障演练和整合全链路压测。
▲体系架构
在整个自动化业务运维系统中,业务大盘与核心链路作为用户使用的入口,分析核心链路上服务状态,定位最终的问题节点,并触发服务保护预案。除此之外,还要定期通过全链路压测来不断验证问题诊断。
▲核心链路
核心链路是系统主要的使用入口,用户可以通过核心链路快速定位是哪一个调用链出现问题。
▲服务保护&故障演练模块
服务保护&故障演练模块是让业务运维体系形成闭环的重要部分。针对不同的保护需求会有不同类型的服务保护开关,例如降级开关、限流开关等等。
▲全链路压测
美团外卖会定期进行全链路压测,针对压测流量进行不同场景的故障演练,在制造故障的同时,验证服务保护预案是否可以像预期那样启动保护服务。
浏览5217次
浏览9799次
浏览3262次
浏览4208次
浏览7642次
浏览1597次
2025-01-08 昆明
2025-04-19 南京
2024-12-27 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈