百度张建伟 - 百度大数据离线计算平台流式shuffle服务

SACC2016 （第八届）中国系统架构师大会所有文档
开九易云拓朱龙春 - 互联网对传统企业应用架构冲击和机遇
5401次
淘宝郑士汉 - Weex架构简介和性能优化实战
3726次
周亚金 - 安卓应用保护技术发展
5008次
小米电视工程师朱辉 - ZRAM那点事pdf
9943次
小米朱辉 - 支持任意数量watchpoin的建议
8787次
学而思赵文杰 - 交互式直播推流编码器的设计
5205次
搜狗甄丽霞 - 基于Kafka-spark streaming的数据处理系统及测试
10867次
蚂蚁金服郑波 - 网商银行金融云的架构之路
4595次
饿了么徐巍 - 饿了么基础设施进化史
4783次
光载无限许开强 - CDN直播系统的优化
1125次
搜狗杨剑飞 - 统一数据平台的实践及思考
2897次
网易蜂巢尧飘海 - 网易蜂巢公有容器云架构之路
8282次
超多维郁树达 - 前进的路上，VR有哪些绕不开的坑
10820次
美团点评喻继鹏 - 互联网行业财务系统架构探讨
3406次
阅文集团徐海峰 - 阅文集团自主分布式文件系统
8810次
哈尔滨银行姜岩 - 运维架构调整与运维工厂模式的建立
5530次
深圳瑞赛张平 - 专业化的风控服务平台的技术架构及实践
3206次
魔窗张申竣 - 创业公司的大数据平台选型和进化
5975次
去哪儿网张子天 - Spider-QunarAndroid客户端架构的前世今生
10192次
蜗牛云赵刚 - 京东VRAR实验室在电商VR中的实践
3521次
云计算公司技术专家赵伟 - 负载均衡利器HAProxy功能剖析及部署案例
11139次
中国移动王烨 - 中国移动私有云管理平台架构和实践
3085次
优酷土豆宋慎义 - 为全民直播量身定做流媒体平台
6863次
Linkedin China Engineer Supervisor魏佳 - 图数据库Neo4J的实践之路
3472次
美图魏家富 - 美图公司运维自动化系统架构设计
1318次
阿里巴巴郝豪 - 阿里Android instant run探索与实践
7445次
美团外卖夏华夏 - 架构师的三个基本要求
8002次
爱奇艺谢丹铭 - 爱奇艺业务风控系统
3785次
爱奇艺刘俊晖 - 爱奇艺大数据平台的构建之路
6579次
爱奇艺刘文峰 - 爱奇艺云架构实践优化
9751次
易到用车刘宇 - PHP高性能服务框架架构与实践
8794次
网易刘长伟 - 网易蜂巢Docker研发实践
5322次
刘喆 - 大数据时代AdMaster的运维架构
4053次
去哪儿网路绪清 - 基于大数据的消费信贷平台
6621次
中国移动罗刚毅 - 中国移动异构虚拟化平台统一管理研发与实践
1638次
优酷土豆吕红亮 - 视频精准推荐系统实践
9948次
小米VR团队马坤 - VR技术与展望
5750次
资深云计算架构师马耀泉 - 云计算的高可用实践探索与分享
4528次
袋鼠云宁海元 - 企业级云数据库管控架构设计与实践
5782次
汽车之家欧阳梦南 - 汽车之家移动APP架构演进与性能优化历程
9824次
光载无限欧曜伟 - 光载无限监控体系的变革与演进
7171次
阿里巴巴袁冶平 - 阿里大数据平台发布管理体系
6334次
Hyper.sh 裴彤 - 基于 hyper 容器技术的新一代容器云
3836次
58到家任桃术 - 58到家分布式服务框架
1433次
阿里巴巴桑毅宏 - 互联网公司骨干网规划构
10386次
上汽集团龚瀚申 - 上汽集团基于容器技术的尝试实践
9762次
滴滴出行盛克华 - 滴滴高性能列式KV存储系统实践
9562次
京东寿如阳 - 京东虚假交易识别系统
6524次
信泰人寿章晨曦 - 数据分发平台的架构设计与实践
6190次
爱可生王伟 - 数据之大，云动未来——传统企业从IT到DT的互联网创新最佳实践
6372次
上交所孙长昊 - 上交所基于容器技术的微服务架构技术实践
9538次
魅族覃军 - 魅族基础系统运维之路示
9239次
美团唐义哲 - 美团业务风控系统构建经验
4383次
腾讯程彬 - 腾讯云数据库CDB技术演进之路
2340次
一点资讯王成光 - 轻量级分布式实时计算框架light_drtc
5604次
京东王大泳 - 京东数据中心网络监控实践
2215次
农银王福强 - 农银人寿新一代核心业务系统云平台实践题
10028次
Intel 王华峰、毛玮、张天伦 - 分布式流式数据处理框架：功能对比以及性能评估
6802次
时速云王磊 - 容器云平台在企业中的运维管理和场景实践
11477次
达乎科技王茜 - SDN对传统网络的变革和价值提升
9306次
搜狐视频李修鹏 - 搜狐视频个性化推荐架构设计和实践
5424次
北京邮电大学李昕 - SDN向左，WAN向右
11165次
蜗牛云李晨光 - VR沉浸式视频在移动平台的优化技术分析
3075次
武汉泰迪智慧科技李成华 - 深度学习在自然语言中的应用
9070次
华胜信泰李海翔 - 数据库引擎技术架构
7855次
360 李纪峰 - 云平台安全架构剖析
8514次
蚂蚁金服李三红 - Java企业应用-性能优化原则，方法与策略
3720次
拍拍贷徐王锦 - 金融行业数据库架构变迁
11412次
京东杨海明 - 京东云的架构实践之路
3094次
神策数据曹犟 - 从日志统计到大数据分析
8458次
饿了么常盛 - 饿了么实时架构演进
10591次
DBI 常艳玲 - 架构师现状调查报告解读
4409次
日志易陈军 - IT运维分析与海量日志搜索分析
5134次
华为陈亮 - Apache CarbonData，实现大数据即席查询秒级响应
1688次
百度外卖师陈霖 - 百度外卖服务化实战
11444次
腾讯微信陈晓鹏 - 微信运维实时监控数据上报及存储设计实践
3389次
雪球单艳蕾 - 雪球运维架构体系探索
3679次
证券董国兴 - 传统金融行业企业架构创新与实践
9817次
腾御安樊付强 - GNU工具链里的漏洞利用缓解技术
3457次
国家工商总局付宏伟 - 工商数据中心架构创新之路
11202次
七牛云何李石 - 七牛融合CDN实践
8329次
宜信侯松 - 大数据全流程平台在互联网金融场景下的实现和借鉴意义
7747次
饿了么张雪峰 - 架构师需要面对的两个【架构】
1621次
Apache HAWQ 简丽荣 - 数据仓库架构的变迁
5551次

百度张建伟 - 百度大数据离线计算平台流式shuffle服务

所属会议：SACC2016 （第八届）中国系统架构师大会会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

2951次
浏览次数

SACC2016 （第八届）中国系统架构师大会所有文档开九易云拓朱龙春 - 互联网对传统企业应用架构冲击和机遇淘宝郑士汉 - Weex架构简介和性能优化实战周亚金 - 安卓应用保护技术发展小米电视工程师朱辉 - ZRAM那点事pdf 小米朱辉 - 支持任意数量watchpoin的建议学而思赵文杰 - 交互式直播推流编码器的设计搜狗甄丽霞 - 基于Kafka-spark streaming的数据处理系统及测试蚂蚁金服郑波 - 网商银行金融云的架构之路饿了么徐巍 - 饿了么基础设施进化史光载无限许开强 - CDN直播系统的优化搜狗杨剑飞 - 统一数据平台的实践及思考网易蜂巢尧飘海 - 网易蜂巢公有容器云架构之路超多维郁树达 - 前进的路上，VR有哪些绕不开的坑美团点评喻继鹏 - 互联网行业财务系统架构探讨阅文集团徐海峰 - 阅文集团自主分布式文件系统哈尔滨银行姜岩 - 运维架构调整与运维工厂模式的建立深圳瑞赛张平 - 专业化的风控服务平台的技术架构及实践魔窗张申竣 - 创业公司的大数据平台选型和进化去哪儿网张子天 - Spider-QunarAndroid客户端架构的前世今生蜗牛云赵刚 - 京东VRAR实验室在电商VR中的实践云计算公司技术专家赵伟 - 负载均衡利器HAProxy功能剖析及部署案例中国移动王烨 - 中国移动私有云管理平台架构和实践优酷土豆宋慎义 - 为全民直播量身定做流媒体平台 Linkedin China Engineer Supervisor魏佳 - 图数据库Neo4J的实践之路美图魏家富 - 美图公司运维自动化系统架构设计阿里巴巴郝豪 - 阿里Android instant run探索与实践美团外卖夏华夏 - 架构师的三个基本要求爱奇艺谢丹铭 - 爱奇艺业务风控系统爱奇艺刘俊晖 - 爱奇艺大数据平台的构建之路爱奇艺刘文峰 - 爱奇艺云架构实践优化易到用车刘宇 - PHP高性能服务框架架构与实践网易刘长伟 - 网易蜂巢Docker研发实践刘喆 - 大数据时代AdMaster的运维架构去哪儿网路绪清 - 基于大数据的消费信贷平台中国移动罗刚毅 - 中国移动异构虚拟化平台统一管理研发与实践优酷土豆吕红亮 - 视频精准推荐系统实践小米VR团队马坤 - VR技术与展望资深云计算架构师马耀泉 - 云计算的高可用实践探索与分享袋鼠云宁海元 - 企业级云数据库管控架构设计与实践汽车之家欧阳梦南 - 汽车之家移动APP架构演进与性能优化历程光载无限欧曜伟 - 光载无限监控体系的变革与演进阿里巴巴袁冶平 - 阿里大数据平台发布管理体系 Hyper.sh 裴彤 - 基于 hyper 容器技术的新一代容器云 58到家任桃术 - 58到家分布式服务框架阿里巴巴桑毅宏 - 互联网公司骨干网规划构上汽集团龚瀚申 - 上汽集团基于容器技术的尝试实践滴滴出行盛克华 - 滴滴高性能列式KV存储系统实践京东寿如阳 - 京东虚假交易识别系统信泰人寿章晨曦 - 数据分发平台的架构设计与实践爱可生王伟 - 数据之大，云动未来——传统企业从IT到DT的互联网创新最佳实践上交所孙长昊 - 上交所基于容器技术的微服务架构技术实践魅族覃军 - 魅族基础系统运维之路示美团唐义哲 - 美团业务风控系统构建经验腾讯程彬 - 腾讯云数据库CDB技术演进之路一点资讯王成光 - 轻量级分布式实时计算框架light_drtc 京东王大泳 - 京东数据中心网络监控实践农银王福强 - 农银人寿新一代核心业务系统云平台实践题 Intel 王华峰、毛玮、张天伦 - 分布式流式数据处理框架：功能对比以及性能评估时速云王磊 - 容器云平台在企业中的运维管理和场景实践达乎科技王茜 - SDN对传统网络的变革和价值提升搜狐视频李修鹏 - 搜狐视频个性化推荐架构设计和实践北京邮电大学李昕 - SDN向左，WAN向右蜗牛云李晨光 - VR沉浸式视频在移动平台的优化技术分析武汉泰迪智慧科技李成华 - 深度学习在自然语言中的应用华胜信泰李海翔 - 数据库引擎技术架构 360 李纪峰 - 云平台安全架构剖析蚂蚁金服李三红 - Java企业应用-性能优化原则，方法与策略拍拍贷徐王锦 - 金融行业数据库架构变迁京东杨海明 - 京东云的架构实践之路神策数据曹犟 - 从日志统计到大数据分析饿了么常盛 - 饿了么实时架构演进 DBI 常艳玲 - 架构师现状调查报告解读日志易陈军 - IT运维分析与海量日志搜索分析华为陈亮 - Apache CarbonData，实现大数据即席查询秒级响应百度外卖师陈霖 - 百度外卖服务化实战腾讯微信陈晓鹏 - 微信运维实时监控数据上报及存储设计实践雪球单艳蕾 - 雪球运维架构体系探索证券董国兴 - 传统金融行业企业架构创新与实践腾御安樊付强 - GNU工具链里的漏洞利用缓解技术国家工商总局付宏伟 - 工商数据中心架构创新之路七牛云何李石 - 七牛融合CDN实践宜信侯松 - 大数据全流程平台在互联网金融场景下的实现和借鉴意义饿了么张雪峰 - 架构师需要面对的两个【架构】 Apache HAWQ 简丽荣 - 数据仓库架构的变迁

文档介绍



Shuffle作为大数据离线计算平台中最重要的模块，其性能直接影响作业的运行时效性和平台资源消耗。为进一步提高平台计算效能，百度研发了新型的流式Shuffle服务，降低框架资源消耗，提升框架计算有效性，进一步强化平台计算能力。流式Shuffle服务已成功应用于百度十万级规模的离线计算平台，收益显著。主要介绍点：流式shuffle&内存push（map数据不落盘）；Pipeline；Shuffle结果高度预聚合&多副本持久化；负载均衡与流控；去重与异常处理；多路输入多路输出（MIMO）；面向人群：架构师、大数据应用者、大数据框架开发者。

演讲实录

背景
　　据张老师介绍，百度私有云架构最底层有百度自研的高精硬件，上层包括集群操作系统Matrix，Normandy统一资源调度。
百度大数据离线计算平台：
一般Shuffle模式：
Shuffle作为大数据离线计算平台中最重要的模块，其性能直接影响作业的运行时效性和平台资源消耗。为进一步提高平台计算效能，百度研发了新型的流式Shuffle服务，降低框架资源消耗，提升框架计算有效性，进一步强化平台计算能力。
谈到平台发展历程时，张老师首先介绍主要的离线计算模型——MapReduce，百度从2007年开始引进Hadoop 0.15.1，随后快速发展，2011年百度的MR单集群规模达到5000台，到2013年已经多达1.3万台，这也是截止到目前为止全世界最大的单集群。Hadoop全集群规模为10万量级,作业量达到了百万量级，日均CPU利用率超过80%，远超业界同行，百度开放云底层依赖的大规模集群调度、资源隔离等技术能力世界领先。
　　除了在规模方面不断扩大，百度一直在Hadoop性能分析方面进行了大量的优化。2013年的测试结果显示，百度内部MR实现相比于开源Hadoop性能提升30%。典型优化，例如Hadoop中的Shuffle，我们将其做成一个统一的shuffle服务，不再占用Map或Reduce槽位。比如对关键热点函数采用SSE向量化等。
　　架构
流式Shuffle服务已成功应用于百度十万级规模的离线计算平台，收益显著。面向架构师、大数据应用者、大数据框架开发者等人群，张老师主要介绍了流式shuffle&内存push(map数据不落盘)；Pipeline；Shuffle结果高度预聚合&多副本持久化；负载均衡与流控；去重与异常处理；多路输入多路输出(MIMO)。
　　关键技术
　　ShuffleMaster：
Writer：
Shuffler：
Reader：所有Map完成后，调度Reduce，直接读取DFS排好序的数据，去重&数据验证，多路归并排序。
　　Map Pipeline：Map端Writer，要等Shuffler将数据持久化到DFS后，才能将发送的rpc buffer释放，所有发送的数据被Shuffler持久化后，Map才能安全退出。
　收益与总结
　　收益，流式shuffle：减少旧shuffle map merge、reduce pull时间消耗；内存Push：map端不落盘；Shuffler内存聚合：聚合度高，减少map端seek，减少reduce端merge路数，减少IO；Pipeline：大大提高中小作业map端运行速度；中间数据持久化：避免重算(对dag作业尤为重要)。
　　流式Shuffle服务，push instead of pull；Shuffle过程交给能拿到更多全局信息、更专业的shuffler来做；Map、Shuffler、Reduce，每个都做自己最适合做且擅长做的事情；Shuffle与Reduce解耦，简化Reduce，也为解决分桶不均问题提供可能；Pipeline；无缝的流线，减少无谓的等待。
　　问题：更多的网络io(万兆网卡，网络不是瓶颈)；Shuffler资源共享，作业间可能互相影响(让Shuffler资源非瓶颈)。
　　下一步计划

张平

深圳瑞赛网络科技有限公司创始人兼CEO

了解更多 >

百度 张建伟 - 百度大数据离线计算平台流式shuffle服务

百度 张建伟 - 百度大数据离线计算平台流式shuffle服务

文档介绍

演讲实录

相关会议文档推荐

张平

相关会议

百度张建伟 - 百度大数据离线计算平台流式shuffle服务

百度张建伟 - 百度大数据离线计算平台流式shuffle服务