爱奇艺基于 Mesos + Docker 的容器云平台自 2014年开始建设以来,逐步接入了公司内部大量的离线、在线业务。随着平台功能的日趋完善,以及越来越多重要、敏感业务的接入,我们开始将精力更多地投入到系统、容器、应用的性能提升方面。 容器环境不可避免地存在一些性能方面的问题。即便事先做好所有能够想到的准备,也时常会有一些意想不到的现象出现。某重点业务从虚拟机迁移到容器,滚动升级期间超时率峰值竟飙升几倍;某一天开始,集群部分节点所有服务实例异常,ssh 无法连接;新上架一批高配置机器,却前所未有地频频爆出容器启动超时;主机云存储挂载正常,容器却无法访问……以上种种问题的根源,是容器技术的缺陷,还是集群底层设备的不足,抑或平台的调度策略不合理? 本次分享以两个典型的容器化业务排障为例,包括问题预估、准备工作,新问题浮现、定位,解决方案的提出,以及通用性能指标的监控部署,为容器性能问题排障及预防总结出完整的思路。
浏览5253次
浏览9364次
浏览10804次
浏览9013次
浏览5462次
浏览10406次
2025-01-08 昆明
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
打开微信扫一扫,分享到朋友圈