毛茂德-阿里智能运维平台如何助力研发应对双11挑战_部分1

GIAC 2017全球互联网架构大会所有文档
毛茂德-阿里智能运维平台如何助力研发应对双11挑战_部分2
10897次
jolestar 王渊命-如何利用+Kubernetes+建设+AI+时代的+DevOps+平台
7240次
曾勇 - Elastic Stack- Past, Present, & Future
12369次
滴滴出行梁李印 - 滴滴实时计算平台架构与实践
9134次
董西成 - PB级Hadoop集群跨机房迁移实战
6335次
刘洋（炎寻） - 蘑菇街作业调度系统Jarvis的架构与实现
8264次
hai lu - 领英对实时流计算的应用和探索
3395次
洪倍-软硬兼施：分布式高速缓存和流式计算架构设计
2369次
杜修文 - 预览新世代MySQL 8-0
9998次
张文升 - Happy Hacking in Tantan Using PostgreSQL - PostgreSQL in Tantan
10505次
姚捷 - 秒级监控时代-GIAC(公开版)
9315次
杨保华-区块链到分布式账本
5054次
张晓通-壹钱包架构演进之路
7801次
赵文乐-互金企业如何运用技术解决发展和合规的挑战
6434次
苗广艺 - 人工智能技术如何在教育行业落地
10103次
袁进辉 - 深度学习平台技术演进
4942次
58速运沈剑 - 头疼，技术 leader 怎么定量化 KPI
5918次
饿了么史海峰-不忘初心，中级领导力修炼
2810次
沪江余晟-要“蜕变”不要“退变”——成为合格技术领导者
6791次
特赞科技黄勇 - 工程师择业之道
4697次
廖雄杰 - APM全栈性能监控实践
6834次
陆传胜 - bytecode dance
4421次
肖桦 - Java Tuning Guide
5597次
杨大鹏 - APM系统构建与应用
3790次
360 王浩 - APK行为监控与分析
6292次
白山云科技丛磊 - AI重塑Web安全_部分1
5910次
白山云科技丛磊 - AI重塑Web安全_部分2
6801次
刘明浩 - 金融科技分布式安全架构
8604次
郭扬 - 持续集成技术实践
7550次
何勉&洪永潮 - 度量引导的持续交付和敏捷实施
6851次
姚延栋 - Greenplum机器学习工具集和案例
2077次
李远策 - XLeaning：360深度学习调度平台架构设计
1882次
腾讯黄明 - 进击的巨人：基于Angel的高维度Online Learning
4196次
谢孟军 - 微服务和Go语言的应用
8950次
杨晓峰 - Java9-In-Practice
4286次
bilibili 毛剑 - B站微服务链路监控实践
8281次
陈皓 - Cloud Native 云化架构_部分1
5407次
陈皓 - Cloud Native 云化架构_部分2
1916次
吴疆 - Microservice 在 Cloud Foundry 的应用
7889次
邢海涛 - 微服务和K8s集成探索实践
7316次
jiangjie qin-Auto Management for Apache Kafka and Distributed Stateful System in General
3364次
阿里巴巴马昕曦-Dubbo 的过去、现在以及未来
7170次
携程余昭辉-去哪儿网消息中间件演进
4020次
阿里巴巴姜天意-基于bpmn流程引擎驱动的前端研发平台
10062次
百度彭星-基于 Vue 的 PWA 解决方案——开源 Lavas 项目案例
6375次
饿了么邓钢-前端生产环境部署 ES6 代码
2383次
360 董福源 - Android框架虚拟化实战
7090次
滴滴出行戴铭 - Swift 将 Web 代码转成60帧满帧原生应用的方案及实践_部分1
2444次
滴滴出行戴铭 - Swift 将 Web 代码转成60帧满帧原生应用的方案及实践_部分2
3833次
极光王可为 - 极光Android SDK架构演进之路
4694次
阿里巴巴邹迪飞 - 移动应用高可用技术探索
8418次
华为杜玉杰 - 物联网操作系统漫谈
8456次
映云科技李枫 - 基于 EMQ 开发千万级 IoT 平台架构实践
4129次
云吧张虎 - IoT：海量设备的连接和安全
6697次
饿了么吴俊龙&严佳奇 - 饿了么全链路压测的实践与体系建设
9370次
京东张琪 - 质效合一----驱动质量团队提效之路
10759次
腾讯何纯 - 基于真实用户体验的实时监控和优化
10283次
宋子豪@Mesosphere_ 容器行业存储标准CSI与Apache Mesos
11009次
网易云赖冬林-Kubernetes 网易云性能优化实践-Final_部分1
5620次
网易云赖冬林-Kubernetes 网易云性能优化实践-Final_部分2
8999次
俞圆圆 - 电竞数据的容器实践 — serverless的电竞数据计算平台
3589次
鸟哥惠新宸-The Next G of PHP
6923次

毛茂德-阿里智能运维平台如何助力研发应对双11挑战_部分1

所属会议：GIAC 2017全球互联网架构大会会议地点：上海


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

7221次
浏览次数

GIAC 2017全球互联网架构大会所有文档毛茂德-阿里智能运维平台如何助力研发应对双11挑战_部分2 jolestar 王渊命-如何利用+Kubernetes+建设+AI+时代的+DevOps+平台曾勇 - Elastic Stack- Past, Present, & Future 滴滴出行梁李印 - 滴滴实时计算平台架构与实践董西成 - PB级Hadoop集群跨机房迁移实战刘洋（炎寻） - 蘑菇街作业调度系统Jarvis的架构与实现 hai lu - 领英对实时流计算的应用和探索洪倍-软硬兼施：分布式高速缓存和流式计算架构设计杜修文 - 预览新世代MySQL 8-0 张文升 - Happy Hacking in Tantan Using PostgreSQL - PostgreSQL in Tantan 姚捷 - 秒级监控时代-GIAC(公开版) 杨保华-区块链到分布式账本张晓通-壹钱包架构演进之路赵文乐-互金企业如何运用技术解决发展和合规的挑战苗广艺 - 人工智能技术如何在教育行业落地袁进辉 - 深度学习平台技术演进 58速运沈剑 - 头疼，技术 leader 怎么定量化 KPI 饿了么史海峰-不忘初心，中级领导力修炼沪江余晟-要“蜕变”不要“退变”——成为合格技术领导者特赞科技黄勇 - 工程师择业之道廖雄杰 - APM全栈性能监控实践陆传胜 - bytecode dance 肖桦 - Java Tuning Guide 杨大鹏 - APM系统构建与应用 360 王浩 - APK行为监控与分析白山云科技丛磊 - AI重塑Web安全_部分1 白山云科技丛磊 - AI重塑Web安全_部分2 刘明浩 - 金融科技分布式安全架构郭扬 - 持续集成技术实践何勉&洪永潮 - 度量引导的持续交付和敏捷实施姚延栋 - Greenplum机器学习工具集和案例李远策 - XLeaning：360深度学习调度平台架构设计腾讯黄明 - 进击的巨人：基于Angel的高维度Online Learning 谢孟军 - 微服务和Go语言的应用杨晓峰 - Java9-In-Practice bilibili 毛剑 - B站微服务链路监控实践陈皓 - Cloud Native 云化架构_部分1 陈皓 - Cloud Native 云化架构_部分2 吴疆 - Microservice 在 Cloud Foundry 的应用邢海涛 - 微服务和K8s集成探索实践 jiangjie qin-Auto Management for Apache Kafka and Distributed Stateful System in General 阿里巴巴马昕曦-Dubbo 的过去、现在以及未来携程余昭辉-去哪儿网消息中间件演进阿里巴巴姜天意-基于bpmn流程引擎驱动的前端研发平台百度彭星-基于 Vue 的 PWA 解决方案——开源 Lavas 项目案例饿了么邓钢-前端生产环境部署 ES6 代码 360 董福源 - Android框架虚拟化实战滴滴出行戴铭 - Swift 将 Web 代码转成60帧满帧原生应用的方案及实践_部分1 滴滴出行戴铭 - Swift 将 Web 代码转成60帧满帧原生应用的方案及实践_部分2 极光王可为 - 极光Android SDK架构演进之路阿里巴巴邹迪飞 - 移动应用高可用技术探索华为杜玉杰 - 物联网操作系统漫谈映云科技李枫 - 基于 EMQ 开发千万级 IoT 平台架构实践云吧张虎 - IoT：海量设备的连接和安全饿了么吴俊龙&严佳奇 - 饿了么全链路压测的实践与体系建设京东张琪 - 质效合一----驱动质量团队提效之路腾讯何纯 - 基于真实用户体验的实时监控和优化宋子豪@Mesosphere_ 容器行业存储标准CSI与Apache Mesos 网易云赖冬林-Kubernetes 网易云性能优化实践-Final_部分1 网易云赖冬林-Kubernetes 网易云性能优化实践-Final_部分2 俞圆圆 - 电竞数据的容器实践 — serverless的电竞数据计算平台鸟哥惠新宸-The Next G of PHP

文档介绍



双11已经过去两周了，但双11的热度还在继续。双11从09年开始，到12年就变成了一个节日，变成了消费者日，商家感恩消费者的节日。不仅是阿里奉献给国人的一个节日，更是阿里奉献给世界的全球购物狂欢节，因为今天阿里的业务已经遍布全世界。业务的爆炸式的增长给技术带来前所未有的挑战，今年双11在技术上又创造了新的高峰。所以在在阿里内部，我们也常说双11是技术的练兵场，是业务和技术的大协同。每年双11后，阿里都会给大家分享阿里在双11中的前沿技术理念和技术成果，运维是阿里双11技术分享以来的首次分享。运维是业务的重要支撑，运维平台如何让业务在如此迅猛的发展下依然稳定、高效的发展是对我们巨大的挑战。

演讲实录

如柏：双11已经过去两周了，但双11的热度还在继续。双11从09年开始，到12年就变成了一个节日，变成了消费者日，商家感恩消费者的节日。不仅是阿里奉献给国人的一个节日，更是阿里奉献给世界的全球购物狂欢节，因为今天阿里的业务已经遍布全世界。业务的爆炸式的增长给技术带来前所未有的挑战，今年双11在技术上又创造了新的高峰。所以在在阿里内部，我们也常说双11是技术的练兵场，是业务和技术的大协同。每年双11后，阿里都会给大家分享阿里在双11中的前沿技术理念和技术成果，运维是阿里双11技术分享以来的首次分享。运维是业务的重要支撑，运维平台如何让业务在如此迅猛的发展下依然稳定、高效的发展是对我们巨大的挑战。

今天我给大家分享的是阿里智能运维平台如何协助研发应对双11的挑战。今天的分享主要分为四个部分：

回顾阿里运维历程

基础运维平台分享

应用运维平台分享

阿里在智能运维平台上的发展成果

阿里运维历程

阿里的运维和很多公司有相似之处，也经历了四个阶段：

使用命令行工具运维

系统化工具运维

自动化平台

智能化平台与无人值守实践

每个阶段的转变都是一个非常漫长的过程。在这个过程中我们一直秉承一个原则：让机器做人去做的事；让系统做可重复的事；让系统做人做不好的事。

运维是一个非常大的概念。很难用一两句话能描述清楚，在维基百科中，Operations有十几个解释。在我看来中文的“运维”其实非常好的描述了运维的本质，“运”就是让业务稳定持续的运行，“维”就是运行过程中针对任何出现的问题进行维护，使业务保持继续运行的能力。运维本质就是让业务稳定、高效的运做，并在此基础上逐步降低运维成本。运维的职责覆盖了产品从设计到发布、运行、成本技术优化及至下线的生命周期。

我们把运维分成五个层次。

资源：Quota管理、资源规划、资源采购、资源调度、bootstrap

变更：变更信息、应用变更、基础软件变更、网络变更、IDC变更

监控：基础监控、业务监控、链路监控、报警、视图

稳定性：多活、故障修复、故障定位、故障注入、全链路压测

规模化：一键建站、搬迁、腾挪、单元调整

在产品发布前，运维需要对产品的整体架构做合理评估，把控资源诉求，分析产品是否有单点、是否有足够的容量，是否可容错，是否有强耦合等。资源规划评估，包括所需的服务器资源、网络资源以及资源的分布等，同时把相关产品对资源预算申请的合理性，控制服务成本。

当所有的资源都到位后，把服务部署到线上，形成线上运行的业务。由于软件需要不停的迭代，这个过程中会发生如网络架构的变化、服务器淘汰等各种变更。

在运行过程中，监控是必不可少的。基础服务、基础软件、业务、舆情等各方面都需要做监控。

互联网的快速发展导致业务必须具备非常快速的迭代、快速部署，这要求运维要有规模化的能力，能进行快速复制。比如，如何让新收购的海外公司融入集团运维体系里，这是一个非常关键的业务。

基础运维平台

运维的五个层次不可能只用一个系统来承载，每个层次都是有非常多的系统。基础运维平台和应用运维平台主要体现在资源和变更层次，一些监控、规模化的内容也涵盖在这里。我们把基础运维平台定义成IT运维的基础设施。

基础设施是怎样的？电、水、桥梁、机场都是日常生活中的基础设施，这些基础设施都有一些共同特征：稳定、安全、统一、有预见性、无需感知。如果电力的供应不稳定，经常发生断电，我们的财产和日常工作都会遭受到非常大的损失。如果自来水不安全，居民的生命也会造成非常大的损。在运维领域，我们也需要有稳定、安全、统一、有预见性的基础设施，保证业务的持续稳定发展。

StarAgent就是阿里运维的基础设施，它的稳定性已经达到99.995%。它也非常安全，因为它关系到整个阿里巴巴所有服务器、所有网络、所有业务。它有自我保护措施，保证任何人的操作都不影响整个集团的业务。

基础设施的统一包含统一的标准和统一的数据。统一有三个好处；

保证不需重复建设一些系统；

便于做全局优化；

便于统一规划，避免不必要的返工。

多个BU建设几个同样的基础设施跟一个BU建设一个基础设施的成本投入是有很大差别的。如果不同团队做同一个设施，只有10%的差别，而专门的团队做基础设施可以做的非常精非常深。在阿里，我们利用中台的思想，把所有的基础设施统一到StarAgent上。

统一基础设施使我们能看到全局概况而不是某一个BU的情况，方便做全局的优化和高度抽象，保证系统具有可扩展性，能适应所有场景，这也是阿里中台思想的核心概念。

如果修马路的人只关注修马路而缺乏统一规划思想，忽略管线的铺设，把马路修完后又重新刨开处理管线的问题，就会造成很大的损失。运维基础设施也是一样，统一规划能避免重复的返工和成本的浪费。

基础设施必须具备预见性。新一代StarAgent在设计之初就考虑到了服务器数量和业务增长的趋势对稳定性和性能可能带来的冲击，保证在3-5年内无需重新架构，在这两方面都必须有预见性的考虑。

基础设施还有一个特点，就是我们不需要任何人感知到它的存在。如果人们都能感知到基础设施的存在，说明基础设施不够稳定，性能不够好。阿里做到现在很少有研发真正能感知到StarAgent系统，就像我们感知不到电，感知不到水，因为现在这些基础设施已经非常稳定，无需我们关注。

阿里运维基础设施产品介绍

堡垒机主要是负责管理整个阿里账号、权限、访问控制、高危拦截、事后审计。阿里堡垒机在阿里是非常具有特色和竞争力的产品，能同时容纳5000人在线，也符合ISO的各个行业规范。

StarAgent是一个运维通道，是基础设施中最核心的功能。它主要分3层架构：中央管控、每个机房集群的管控，物理机、虚拟机、容器上的Agent。Agent是一个插件式管理。截止到目前为止，我们已经有150多个插件，1/3的插件属于后台进程类。

StarAgent的职责是保证所有插件、所有后台进程的稳定运行和作为运维的通道。我们在资源上做了很多限制，在插件安装前，开发者会定义每个插件所用到的内存、CPU、磁盘、网络上的流量。如果进程的运行超过限定范围，我们就把这个进程杀掉来保障服务器的安全。在运维通道方面，我们做了同步命令执行和异步命令执行，目前日均访问量达1个亿。

在安全方面，我们和集团的安全部合作，安排安全演练和攻防演练，保证系统的安全。我们也做了很多命令的拦截、全链路命令的加密等。

虽然系统庞大，需要的运维的人员并不多，95%的工作都已经自动化，包括IP端的自动关联、Agent的自检自愈等，因此百万级服务器只需半个人负责运维。当然要从半个人运维进化到无人值守运维是需要付出巨大的努力的。

蜻蜓是基于P2P技术的智能文件分发系统，在架构上与StarAgent类似。下图为蜻蜓与wget的技术对比。X轴代表并发客户端数量，从200到7000；Y轴代表完成一个500Mb文件分发的耗时。

从图中可以看到，随着客户端数量的增长，蜻蜓的耗时时间都控制在10秒左右，而传统文件分发工具耗时升高，甚至在客户端增长到1200个后，整个集群已无法工作，因为数据源已经被打爆了。蜻蜓不仅可以保护数据源、加快分发速度，也能节省跨IDC带宽，尤其在跨国业务上，能节省很多跨国带宽。在今年11月10日10点， 10000PB同时分发5GB预热数据到上万台服务器，这对蜻蜓是一个前所未有的挑战，也是业务方首次第尝试。今年双11我们完美完成了这个任务，并达到100%的成功率。

蜻蜓运用的主要场景是软件安装，阿里的发布系统也非常依赖于蜻蜓，目前阿里已整体实现Pouch化，所有的业务都已被容器化，在容器镜像的传输方面也是用的蜻蜓。蜻蜓除了支持特大文件传输外，还包括断点续传及一些智能化特性如智能网络、I/O的流控、智能磁盘I/O控制、智能动态压缩等等。

蜻蜓的访问次数已经突破了20亿次，分发量方面已突破了4PB/月，从图中可以看到分发量和镜像分发的占比，通过动态压缩，整体提速了30%。

蜻蜓已经在GitHub上开源了，开源协议是Apache2.0，蜻蜓开源版可以在https://github.com/alibaba/dragonfly访问获取。蜻蜓企业版可以在云效或阿里云容器服务中访问获取。开源版与企业版蜻蜓有略微差别。

开源版功能：P2P文件分发，容器镜像分发、局部限速、磁盘容量预热

企业版功能：断点续传、全局限速、镜像预热、支持内存文件系统、智能网络流控、智能动态压缩、智能调度策略

镜像预热可以帮助我们在业务庞大时快速拉取镜像。比如应用有上万台服务器，如果发布过程中同时拉取镜像，耗时是非常长的。所以我们在发布前把镜像推送到就近机房的节点中。在真正发布时，就近拉取镜像，这样能大幅度减小的耗时。在实际运营中，根据双11的数据统计，经过预热后镜像拉取耗时降低了67%。

应用运维平台

应用运维平台是真正面向研发的运维平台，是研发经常需要用到的平台。在应用运维平台上，我们提供了以下几个能功能。第一个功能是基础设施即代码。一个应用可以通过代码描述的形式把它需要的所有基础设施、所有资源描述清楚，并保存在CMDB上作为用户对应用的资源的需求。所有资源的变更都会被保存下来并且都是版本化的，运维人员可以非常清晰的看到资源的变化情况和操作者是谁。基于这个文本，定义后台所有资源的生产。我们还有定期巡检，查看实际资源与用户定义是否有差异。如果有差异，我们会自动化地帮用户调整资源，资源的弹性扩容和缩容也是基于这种方式做的。基于传统模式生产资源构建应用与这种模式相比效率相差几乎20倍。通过这种方式AE能快速在全球部署一个站，快速复制俄罗斯的一个站点等，得到很大的效率提升。

第二个功能是无人值守发布变更。传统研发在发布过程的每一步结束时查看各种监控指标及应用日志。在无人值守发布过程中，这个工作交给系统，系统会告诉你哪项指标有异常。人只需要在接收到指标时做评判和决策。判断异常是不是问题，如果不是，类似的问题可能不会再提出来。举个简单的例子，我们在写代码的时候都会写日志并保存下来，分析日志里是否发生异常。当分析出异常时，判断这个异常是否从未发生过，如果从未发生过，我们就会提示用户有一个新的异常，发布暂停并让用户确认。如果这个异常曾经发生过，但频率没有这次发布中高，我们也会认为这是一个异常并提示用户。类似这样的指标共有四十多项。通过无人值守发布，降低在发布过程中可能产生的业务故障。实际11月11日的24小时内，我们有大量的发布同时发生，无人值守系统非常好的保障了上线代码的质量。

应用运维平台在WEB端和移动端都可以使用，用户非常容易就可以在手机端得到无人值守发布、资源的创建等情况的消息并快速做出决策。除手机屏外，在阿里双11协同作战中也用到了很多监控大屏，这对沟通成本的降低非常有帮助。实际上，整个业务运维平台上有非常多运维大屏、业务大屏、技术大屏等。整个业务运维平台有PC端大屏、移动端小屏、作战大屏。下图是阿里全新设计的UI，也是在今年双11用到的大屏。

阿里智能运维进展

AIOps是2016年Gartner发布的新概念，强调基于算法的IT运维实践，核心是数据和机器学习。在AIOps闭环里会用到监控，观察所有业务运行状况，将这些数据分析处理，最后形成自动化执行任务。在智能运维里，最重要的是场景、数据、算法。所以AIOps跟阿里运维过程是密不可分的，在整个智能运维过程中核心问题是如何保证业务发展的稳定，在业务发展稳定后如何提升效率和降低成本。

“亻动”是日语里的自动化的“动”字，概况了我们目前在运维领域的状态，实际上我们所谓的自动化还是需要人的介入，人是非常关键的一个因素，所以智能化运维跟最终实现无人值守运维还存在非常大的差距。

下图是智能化运维的整体划分，跟自动驾驶非常相似的，从人工运维过渡到自动化，并且能一键化提示，最终实现无人值守运维的过程。

我们在运维平台做的最多的两件事是如何保证业务的稳定性和在业务稳定的基础上如何提升运维效率。在稳定性方面，我们做了异常检测、根因分析、根源定位，并且尝试做故障的自愈、故障的预测。在运维效率上我们做了智能参数的调整尝试。蜻蜓跟IDST合作在智能网络流控上做了一些工作，它的核心思想是蜻蜓在网络流控上提供参数，帮助我们设定蜻蜓可利用网络带宽的量，保证业务不受影响的情况下，最大限度的利用所有网络资源。之前我们让用户非常方便地设定参数，实际上这是不科学的。我们会做一个全局设定，通过智能化的参数调控、实时大数据分析知道下一个时刻需要用多少网络带宽，所有参数包括网络、磁盘、智能压缩都不再需要通过人为设定，而是系统在运行中自动化调整到最优的状态。

在自动化操作包括扩容、限流、降级也是同样的思想，不需要再人为设定固化的参数，让系统自动化的调到最优的状态。我们核心的思想就是希望以前基于专家的经验转化成算法和机器学习，充实到整个运维平台里。

上图是整个StarOps产品体系，最底层是所有的资源，包括云上资源、混合云资源。在这之上是基础运维平台，基础运维平台里由很多的模块组成的，如堡垒机、文件分发等。在基础运维平台上是应用运维平台，它涵盖资源、变更、监控、故障治理、日常运维等。横向的来看我们的算法平台覆盖了所有板块。除了上图显示的这些系统外，还有很多流程规范、运维红线、故障管理等。面向用户侧的是最上面的一层，有PC端的web、API、SDK、命令行、移动端运维、大屏等。

毛茂德-阿里智能运维平台如何助力研发应对双11挑战_部分1

毛茂德-阿里智能运维平台如何助力研发应对双11挑战_部分1

文档介绍

演讲实录

相关会议文档推荐

相关会议