首页>会议文档 >

百度 张建伟 - 百度大数据离线计算平台流式shuffle服务

page:
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务
百度 张建伟 - 百度大数据离线计算平台流式shuffle服务

百度 张建伟 - 百度大数据离线计算平台流式shuffle服务

所属会议:SACC2016 (第八届)中国系统架构师大会会议地点:北京


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

2561次
浏览次数
SACC2016 (第八届)中国系统架构师大会所有文档 开九易云拓 朱龙春 - 互联网对传统企业应用架构冲击和机遇 淘宝 郑士汉 - Weex架构简介和性能优化实战 周亚金 - 安卓应用保护技术发展 小米电视工程师朱辉 - ZRAM那点事pdf 小米 朱辉 - 支持任意数量watchpoin的建议 学而思 赵文杰 - 交互式直播推流编码器的设计 搜狗 甄丽霞 - 基于Kafka-spark streaming的数据处理系统及测试 蚂蚁金服 郑波 - 网商银行金融云的架构之路 饿了么 徐巍 - 饿了么基础设施进化史 光载无限 许开强 - CDN直播系统的优化 搜狗 杨剑飞 - 统一数据平台的实践及思考 网易蜂巢 尧飘海 - 网易蜂巢公有容器云架构之路 超多维 郁树达 - 前进的路上,VR有哪些绕不开的坑 美团点评 喻继鹏 - 互联网行业财务系统架构探讨 阅文集团 徐海峰 - 阅文集团自主分布式文件系统 哈尔滨银行 姜岩 - 运维架构调整与运维工厂模式的建立 深圳瑞赛 张平 - 专业化的风控服务平台的技术架构及实践 魔窗 张申竣 - 创业公司的大数据平台选型和进化 去哪儿网 张子天 - Spider-QunarAndroid客户端架构的前世今生 蜗牛云 赵刚 - 京东VRAR实验室在电商VR中的实践 云计算公司技术专家赵伟 - 负载均衡利器HAProxy功能剖析及部署案例 中国移动 王烨 - 中国移动私有云管理平台架构和实践 优酷土豆 宋慎义 - 为全民直播量身定做流媒体平台 Linkedin China Engineer Supervisor魏佳 - 图数据库Neo4J的实践之路 美图 魏家富 - 美图公司运维自动化系统架构设计 阿里巴巴 郝豪 - 阿里Android instant run探索与实践 美团外卖 夏华夏 - 架构师的三个基本要求 爱奇艺 谢丹铭 - 爱奇艺业务风控系统 爱奇艺 刘俊晖 - 爱奇艺大数据平台的构建之路 爱奇艺 刘文峰 - 爱奇艺云架构实践优化 易到用车 刘宇 - PHP高性能服务框架架构与实践 网易 刘长伟 - 网易蜂巢Docker研发实践 刘喆 - 大数据时代AdMaster的运维架构 去哪儿网 路绪清 - 基于大数据的消费信贷平台 中国移动 罗刚毅 - 中国移动异构虚拟化平台统一管理研发与实践 优酷土豆 吕红亮 - 视频精准推荐系统实践 小米VR团队马坤 - VR技术与展望 资深云计算架构师马耀泉 - 云计算的高可用实践探索与分享 袋鼠云 宁海元 - 企业级云数据库管控架构设计与实践 汽车之家 欧阳梦南 - 汽车之家移动APP架构演进与性能优化历程 光载无限 欧曜伟 - 光载无限监控体系的变革与演进 阿里巴巴 袁冶平 - 阿里大数据平台发布管理体系 Hyper.sh 裴彤 - 基于 hyper 容器技术的新一代容器云 58到家 任桃术 - 58到家分布式服务框架 阿里巴巴 桑毅宏 - 互联网公司骨干网规划构 上汽集团 龚瀚申 - 上汽集团基于容器技术的尝试实践 滴滴出行 盛克华 - 滴滴高性能列式KV存储系统实践 京东 寿如阳 - 京东虚假交易识别系统 信泰人寿 章晨曦 - 数据分发平台的架构设计与实践 爱可生 王伟 - 数据之大,云动未来——传统企业从IT到DT的互联网创新最佳实践 上交所 孙长昊 - 上交所基于容器技术的微服务架构技术实践 魅族 覃军 - 魅族基础系统运维之路示 美团 唐义哲 - 美团业务风控系统构建经验 腾讯 程彬 - 腾讯云数据库CDB技术演进之路 一点资讯 王成光 - 轻量级分布式实时计算框架light_drtc 京东 王大泳 - 京东数据中心网络监控实践 农银 王福强 - 农银人寿新一代核心业务系统云平台实践题 Intel 王华峰、毛玮、张天伦 - 分布式流式数据处理框架:功能对比以及性能评估 时速云 王磊 - 容器云平台在企业中的运维管理和场景实践 达乎科技 王茜 - SDN对传统网络的变革和价值提升 搜狐视频 李修鹏 - 搜狐视频个性化推荐架构设计和实践 北京邮电大学 李昕 - SDN向左,WAN向右 蜗牛云 李晨光 - VR沉浸式视频在移动平台的优化技术分析 武汉泰迪智慧科技 李成华 - 深度学习在自然语言中的应用 华胜信泰 李海翔 - 数据库引擎技术架构 360 李纪峰 - 云平台安全架构剖析 蚂蚁金服 李三红 - Java企业应用-性能优化原则,方法与策略 拍拍贷 徐王锦 - 金融行业数据库架构变迁 京东 杨海明 - 京东云的架构实践之路 神策数据 曹犟 - 从日志统计到大数据分析 饿了么 常盛 - 饿了么实时架构演进 DBI 常艳玲 - 架构师现状调查报告解读 日志易 陈军 - IT运维分析与海量日志搜索分析 华为 陈亮 - Apache CarbonData,实现大数据即席查询秒级响应 百度外卖 师陈霖 - 百度外卖服务化实战 腾讯微信 陈晓鹏 - 微信运维实时监控数据上报及存储设计实践 雪球 单艳蕾 - 雪球运维架构体系探索 证券 董国兴 - 传统金融行业企业架构创新与实践 腾御安 樊付强 - GNU工具链里的漏洞利用缓解技术 国家工商总局 付宏伟 - 工商数据中心架构创新之路 七牛云 何李石 - 七牛融合CDN实践 宜信 侯松 - 大数据全流程平台在互联网金融场景下的实现和借鉴意义 饿了么 张雪峰 - 架构师需要面对的两个【架构】 Apache HAWQ 简丽荣 - 数据仓库架构的变迁

文档介绍

Shuffle作为大数据离线计算平台中最重要的模块,其性能直接影响作业的运行时效性和平台资源消耗。为进一步提高平台计算效能,百度研发了新型的流式Shuffle服务,降低框架资源消耗,提升框架计算有效性,进一步强化平台计算能力。流式Shuffle服务已成功应用于百度十万级规模的离线计算平台,收益显著。主要介绍点:流式shuffle&内存push(map数据不落盘);Pipeline;Shuffle结果高度预聚合&多副本持久化;负载均衡与流控;去重与异常处理;多路输入多路输出(MIMO);面向人群:架构师、大数据应用者、大数据框架开发者。

演讲实录

背景
  据张老师介绍,百度私有云架构最底层有百度自研的高精硬件,上层包括集群操作系统Matrix,Normandy统一资源调度。
百度大数据离线计算平台:
一般Shuffle模式:
Shuffle作为大数据离线计算平台中最重要的模块,其性能直接影响作业的运行时效性和平台资源消耗。为进一步提高平台计算效能,百度研发了新型的流式Shuffle服务,降低框架资源消耗,提升框架计算有效性,进一步强化平台计算能力。
谈到平台发展历程时,张老师首先介绍主要的离线计算模型——MapReduce,百度从2007年开始引进Hadoop 0.15.1,随后快速发展,2011年百度的MR单集群规模达到5000台,到2013年已经多达1.3万台,这也是截止到目前为止全世界最大的单集群。Hadoop全集群规模为10万量级,作业量达到了百万量级,日均CPU利用率超过80%,远超业界同行,百度开放云底层依赖的大规模集群调度、资源隔离等技术能力世界领先。
  除了在规模方面不断扩大,百度一直在Hadoop性能分析方面进行了大量的优化。2013年的测试结果显示,百度内部MR实现相比于开源Hadoop性能提升30%。典型优化,例如Hadoop中的Shuffle,我们将其做成一个统一的shuffle服务,不再占用Map或Reduce槽位。比如对关键热点函数采用SSE向量化等。
  架构
流式Shuffle服务已成功应用于百度十万级规模的离线计算平台,收益显著。面向架构师、大数据应用者、大数据框架开发者等人群,张老师主要介绍了流式shuffle&内存push(map数据不落盘);Pipeline;Shuffle结果高度预聚合&多副本持久化;负载均衡与流控;去重与异常处理;多路输入多路输出(MIMO)。
  关键技术
  ShuffleMaster:
Writer:
Shuffler:
Reader:所有Map完成后,调度Reduce,直接读取DFS排好序的数据,去重&数据验证,多路归并排序。
  Map Pipeline:Map端Writer,要等Shuffler将数据持久化到DFS后,才能将发送的rpc buffer释放,所有发送的数据被Shuffler持久化后,Map才能安全退出。
 收益与总结
  收益,流式shuffle:减少旧shuffle map merge、reduce pull时间消耗;内存Push:map端不落盘;Shuffler内存聚合:聚合度高,减少map端seek,减少reduce端merge路数,减少IO;Pipeline:大大提高中小作业map端运行速度;中间数据持久化:避免重算(对dag作业尤为重要)。
  流式Shuffle服务,push instead of pull;Shuffle过程交给能拿到更多全局信息、更专业的shuffler来做;Map、Shuffler、Reduce,每个都做自己最适合做且擅长做的事情;Shuffle与Reduce解耦,简化Reduce,也为解决分桶不均问题提供可能;Pipeline;无缝的流线,减少无谓的等待。
  问题:更多的网络io(万兆网卡,网络不是瓶颈);Shuffler资源共享,作业间可能互相影响(让Shuffler资源非瓶颈)。
  下一步计划

×

打开微信扫一扫,分享到朋友圈