大数据常雷-新一代数据仓库：Apache HAWQ

GITC 2017全球互联网技术大会北京站所有文档
移动互联网金昊搜狐-如何解决视频直播APP开发与性能痛点
11084次
移动互联网刘振峰移动社区的云实现和技术实践——Mob刘振峰
7972次
移动互联网齐屹屹高德地图SDK自动化实践之路高德-下载版
11056次
全球化专场-Joe-拥抱全球互联时代_部分1
8523次
全球化专场-Joe-拥抱全球互联时代_部分2
9784次
全球化专场-Joe-拥抱全球互联时代_部分3
3414次
互联网金融刘发鹏新零售互联网金融分布式架构实践-GITC2017-V3-4GITC
7159次
互联网金融刘江-携程大数据风控实践携程-下载版
2509次
互联网金融马俊互联网技术团队如何应对互金业务的多变和挑战网信财富集团
10276次
互联网金融徐佳晶 Fintech场景下大数据处理的挑战与实践_徐佳晶
7775次
互联网金融杨敏强金山云互联网金融解决方案
7434次
网络安全董俊杰业务安全之反爬虫实践猎聘-下载版
11223次
网络安全何艺流量安全分析平台建设gitc-heyi
2627次
网络安全刘刚电商大促的那些事
4475次
网络安全王志刚 DevOps开发模式下软件安全
9674次
网络安全袁曙光 Docker安全实践探索联众游戏-演讲版
4257次
网络安全专场陈莹实时攻击检测的智能化之路携程下载版
9020次
移动互联网陈曦链家网组件化路由方案解析链家网路由 GITC
11338次
移动互联网陈云龙精益化数据分析——让你的企业具有BAT的数据分析能力
7179次
移动互联网董岩-阿里巴巴-Apache Weex：移动研发的进阶之路
5602次
移动互联网胡彪-饿了么Mobile Infrastructure Platform建设 GITC演讲稿
9856次
质量&测试邱化峰基于java代码的覆盖率在饿了么的应用
4079次
质量&测试茹炳晟测试基础架构的演进之路 ebay 下载版
4720次
质量&测试陶文-基于流量回放技术进行中台建设
10262次
质量&测试田西西演讲版PPT
2502次
质量&测试王公瑾汽车电商架构测试实践汽车之家
7059次
质量&测试薛亚斌京东金融app测试探索与实践
4604次
质量&测试_何畅_APP自动遍历程序的技术实现
6901次
互联网金融高少峰－金融科技引领金融变革GITC_部分1
3920次
互联网金融高少峰－金融科技引领金融变革GITC_部分2
9300次
互联网金融李少伟大数据驱动下的互联网金融创新国美金融-GITC
6977次
IoT峰会吴川常物联网商业系统构建之路
4230次
IoT峰会郑晔一个工业物联网应用的架构与实现大大演讲_部分1
9219次
IoT峰会郑晔一个工业物联网应用的架构与实现大大演讲_部分2
6129次
智慧物流论坛陈俊波物流无人技术应用与探讨-陈俊波
6619次
智慧物流论坛解本齐-国美安迅物流-GITC2017
11143次
智慧物流论坛杨威新物流--智能仓储机器人快人一步智能仓储让人类不再搬运
3183次
智慧物流论坛-李波-盛丰物流结算一体化的探索与实践（新）
10712次
智慧物流论坛-李伟-如何做到物流信息化建设的加减乘除_部分1
7569次
智慧物流论坛-李伟-如何做到物流信息化建设的加减乘除_部分2
5088次
智慧物流专场伍冠军+苏宁物流在实时大数据的最佳实践
3356次
IoT峰会仇剑东智能家居生态系统的架构与实践南京物联传感技术有限公司
9560次
IoT峰会李玉峰 IOT运维之路
5131次
前端技术苗典小程序框架-teddy 滴滴出行_部分1
2885次
前端技术苗典小程序框架-teddy 滴滴出行_部分2
6239次
前端技术曲毅多业务场景下的灰度解决方案2017-11-17_部分1
8036次
前端技术曲毅多业务场景下的灰度解决方案2017-11-17_部分2
5793次
前端技术禹立彬苏宁渐进式前后端分离实践
6410次
前端技术郑勇 rn-web的设计与实现携程_部分1
11121次
前端技术郑勇 rn-web的设计与实现携程_部分2
7284次
前端技术邓国梁-前端开发前后端分离实践饿了么-下载版
6703次
前端技术黄勇酷家乐 Virtual DOM在3D渲染中的应用——类ReactJS库的实现及3D应用
11122次
前端技术林溪-tree-shaking性能优化实践百度外卖-下载版
3372次
基础架构陈杰-支付宝关系链平台设计与实现
5033次
基础架构高飞航陌陌服务化架构实践
8713次
基础架构梁向东饿了么API框架的实践 - API Everything R1
1705次
基础架构刘星辰如何优雅的落地中间件-GITC_部分1
6886次
基础架构刘星辰如何优雅的落地中间件-GITC_部分2
10287次
基础架构刘星辰如何优雅的落地中间件-GITC_部分3
10444次
基础架构宁克凡目睹直播下载版终稿
10342次
基础架构沈国勋-阿里旺旺百亿消息架构演进
3010次
基础架构沈剑互联网分层架构演进
10600次
基础架构孙杰大型企业云平台的实践之路外发版
6468次
基础架构魏云-轻轻家教-下载版-构建基于容器的混合云架构实践
6782次
基础架构杨培锋广东奥飞数据科技股份有限公司-下载版
3180次
基础架构张良小米MySQL高可用架构演进
11105次
基础架构赵国光途牛系统架构演化实践GITC-下载版
9604次
基础架构郑树新爱奇艺高可用高性能服务器编程架构实践 - v6
4690次
大数据赵天烁_魅族大数据可视化平台建设之路
2179次
运维权熙哲智能时代数据中心网络实践与趋势
8557次
运维王忠宁-搜狗运维自动化平台架构设计与实践
9339次
运维熊亚军新ITOM 新监控_部分1
9806次
运维熊亚军新ITOM 新监控_部分2
8471次
运维熊亚军新ITOM 新监控_部分3
5892次
运维熊亚军新ITOM 新监控_部分4
1834次
运维杨金全-微服务架构的应用性能监控
6683次
运维余珂爱奇艺-爱奇艺基于DPDK的网络优化实践-下载版
10593次
运维周彦伟-用开源工具之利器，善MySQL运维之琐事
6087次
运维专场黄振开源运维自动化平台架构实现与运营实践
9632次
运维专场宋国欢猎豹移动可持续性自动化运维的探索与创新
3427次
大数据曹永鹏-Mobike大数据平台建设
8839次
大数据陈涛-喜马拉雅数据计算平台xql
4229次
大数据高鹏数据分析领域的黑马-ClickHouse-新浪-高鹏_部分1
10779次
大数据高鹏数据分析领域的黑马-ClickHouse-新浪-高鹏_部分2
2150次
大数据高鹏数据分析领域的黑马-ClickHouse-新浪-高鹏_部分3
1801次
大数据高鹏数据分析领域的黑马-ClickHouse-新浪-高鹏_部分4
2177次
大数据黄波微博机器学习平台实践
8206次
大数据刘一鸣_Kyligence_Apache Kylin加速大数据OLAP
5764次
大数据欧阳辰-实时大数据分析之利器Druid
6560次
大数据吴君-基于大数据的智能交通搜索和一键预定系统
4396次
大数据杨少航从位置服务到数据赋能
4853次
大数据张博搜狗人工智能实践与合作生态
3414次
大数据张惠亮联动大数据处理架构的选择和演进
9525次
大数据张翼-携程大数据平台实践
2200次
主会场郭炜智能时代的大数据用户分析
3123次
主会场侯震宇_金山云混合云网络架构设计与实现
9980次
主会场谭晓生互联网进入大安全时代
1353次
主会场王卓然-语义智能：技术探索与产品落地
9995次
主会场-陈国成构建10亿级商品的电商平台架构（微店）
6731次
运维张兴龙-京东基础运维的智能化实践
11180次
运维陈怡婷呼叫中心语音线路自动化运维之路
2218次
运维程捷海量数据在线分析技术剖析
4001次
运维强昌金 MySQL_NDB_Cluster实践
9486次

大数据常雷-新一代数据仓库：Apache HAWQ

所属会议：GITC 2017全球互联网技术大会北京站会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

11135次
浏览次数

GITC 2017全球互联网技术大会北京站所有文档移动互联网金昊搜狐-如何解决视频直播APP开发与性能痛点移动互联网刘振峰移动社区的云实现和技术实践——Mob刘振峰移动互联网齐屹屹高德地图SDK自动化实践之路高德-下载版全球化专场-Joe-拥抱全球互联时代_部分1 全球化专场-Joe-拥抱全球互联时代_部分2 全球化专场-Joe-拥抱全球互联时代_部分3 互联网金融刘发鹏新零售互联网金融分布式架构实践-GITC2017-V3-4GITC 互联网金融刘江-携程大数据风控实践携程-下载版互联网金融马俊互联网技术团队如何应对互金业务的多变和挑战网信财富集团互联网金融徐佳晶 Fintech场景下大数据处理的挑战与实践_徐佳晶互联网金融杨敏强金山云互联网金融解决方案网络安全董俊杰业务安全之反爬虫实践猎聘-下载版网络安全何艺流量安全分析平台建设gitc-heyi 网络安全刘刚电商大促的那些事网络安全王志刚 DevOps开发模式下软件安全网络安全袁曙光 Docker安全实践探索联众游戏-演讲版网络安全专场陈莹实时攻击检测的智能化之路携程下载版移动互联网陈曦链家网组件化路由方案解析链家网路由 GITC 移动互联网陈云龙精益化数据分析——让你的企业具有BAT的数据分析能力移动互联网董岩-阿里巴巴-Apache Weex：移动研发的进阶之路移动互联网胡彪-饿了么Mobile Infrastructure Platform建设 GITC演讲稿质量&测试邱化峰基于java代码的覆盖率在饿了么的应用质量&测试茹炳晟测试基础架构的演进之路 ebay 下载版质量&测试陶文-基于流量回放技术进行中台建设质量&测试田西西演讲版PPT 质量&测试王公瑾汽车电商架构测试实践汽车之家质量&测试薛亚斌京东金融app测试探索与实践质量&测试_何畅_APP自动遍历程序的技术实现互联网金融高少峰－金融科技引领金融变革GITC_部分1 互联网金融高少峰－金融科技引领金融变革GITC_部分2 互联网金融李少伟大数据驱动下的互联网金融创新国美金融-GITC IoT峰会吴川常物联网商业系统构建之路 IoT峰会郑晔一个工业物联网应用的架构与实现大大演讲_部分1 IoT峰会郑晔一个工业物联网应用的架构与实现大大演讲_部分2 智慧物流论坛陈俊波物流无人技术应用与探讨-陈俊波智慧物流论坛解本齐-国美安迅物流-GITC2017 智慧物流论坛杨威新物流--智能仓储机器人快人一步智能仓储让人类不再搬运智慧物流论坛-李波-盛丰物流结算一体化的探索与实践（新）智慧物流论坛-李伟-如何做到物流信息化建设的加减乘除_部分1 智慧物流论坛-李伟-如何做到物流信息化建设的加减乘除_部分2 智慧物流专场伍冠军+苏宁物流在实时大数据的最佳实践 IoT峰会仇剑东智能家居生态系统的架构与实践南京物联传感技术有限公司 IoT峰会李玉峰 IOT运维之路前端技术苗典小程序框架-teddy 滴滴出行_部分1 前端技术苗典小程序框架-teddy 滴滴出行_部分2 前端技术曲毅多业务场景下的灰度解决方案2017-11-17_部分1 前端技术曲毅多业务场景下的灰度解决方案2017-11-17_部分2 前端技术禹立彬苏宁渐进式前后端分离实践前端技术郑勇 rn-web的设计与实现携程_部分1 前端技术郑勇 rn-web的设计与实现携程_部分2 前端技术邓国梁-前端开发前后端分离实践饿了么-下载版前端技术黄勇酷家乐 Virtual DOM在3D渲染中的应用——类ReactJS库的实现及3D应用前端技术林溪-tree-shaking性能优化实践百度外卖-下载版基础架构陈杰-支付宝关系链平台设计与实现基础架构高飞航陌陌服务化架构实践基础架构梁向东饿了么API框架的实践 - API Everything R1 基础架构刘星辰如何优雅的落地中间件-GITC_部分1 基础架构刘星辰如何优雅的落地中间件-GITC_部分2 基础架构刘星辰如何优雅的落地中间件-GITC_部分3 基础架构宁克凡目睹直播下载版终稿基础架构沈国勋-阿里旺旺百亿消息架构演进基础架构沈剑互联网分层架构演进基础架构孙杰大型企业云平台的实践之路外发版基础架构魏云-轻轻家教-下载版-构建基于容器的混合云架构实践基础架构杨培锋广东奥飞数据科技股份有限公司-下载版基础架构张良小米MySQL高可用架构演进基础架构赵国光途牛系统架构演化实践GITC-下载版基础架构郑树新爱奇艺高可用高性能服务器编程架构实践 - v6 大数据赵天烁_魅族大数据可视化平台建设之路运维权熙哲智能时代数据中心网络实践与趋势运维王忠宁-搜狗运维自动化平台架构设计与实践运维熊亚军新ITOM 新监控_部分1 运维熊亚军新ITOM 新监控_部分2 运维熊亚军新ITOM 新监控_部分3 运维熊亚军新ITOM 新监控_部分4 运维杨金全-微服务架构的应用性能监控运维余珂爱奇艺-爱奇艺基于DPDK的网络优化实践-下载版运维周彦伟-用开源工具之利器，善MySQL运维之琐事运维专场黄振开源运维自动化平台架构实现与运营实践运维专场宋国欢猎豹移动可持续性自动化运维的探索与创新大数据曹永鹏-Mobike大数据平台建设大数据陈涛-喜马拉雅数据计算平台xql 大数据高鹏数据分析领域的黑马-ClickHouse-新浪-高鹏_部分1 大数据高鹏数据分析领域的黑马-ClickHouse-新浪-高鹏_部分2 大数据高鹏数据分析领域的黑马-ClickHouse-新浪-高鹏_部分3 大数据高鹏数据分析领域的黑马-ClickHouse-新浪-高鹏_部分4 大数据黄波微博机器学习平台实践大数据刘一鸣_Kyligence_Apache Kylin加速大数据OLAP 大数据欧阳辰-实时大数据分析之利器Druid 大数据吴君-基于大数据的智能交通搜索和一键预定系统大数据杨少航从位置服务到数据赋能大数据张博搜狗人工智能实践与合作生态大数据张惠亮联动大数据处理架构的选择和演进大数据张翼-携程大数据平台实践主会场郭炜智能时代的大数据用户分析主会场侯震宇_金山云混合云网络架构设计与实现主会场谭晓生互联网进入大安全时代主会场王卓然-语义智能：技术探索与产品落地主会场-陈国成构建10亿级商品的电商平台架构（微店）运维张兴龙-京东基础运维的智能化实践运维陈怡婷呼叫中心语音线路自动化运维之路运维程捷海量数据在线分析技术剖析运维强昌金 MySQL_NDB_Cluster实践

文档介绍



Apache HAWQ是一个新一代数据仓库引擎，它的新颖设计有效得结合了MPP数据库的性能以及Hadoop的可扩展性优势。它给用户提供了SQL标准兼容的接口，以及轻松管理和分析PB级数据的能力。HAWQ已经在数百个国际大中型企业部署应用，包括GE、纽交所、京东和中国移动等。在这个报告中，常雷博士将介绍Apache HAWQ技术架构、应用情况，以及正在研发的新功能。

演讲实录

很高兴今天下午有机会可以跟大家交流一下我们做的一些工作。简单介绍下自己，之前我博士毕业后加入了EMC，当时EMC收购了Greenplum，这是当时一家研发数据库的创业公司。收购后，两个创始人来到中国建立研发中心，大家交流了我当时做的一个数据仓库研究系统，该系统结合了当时流行的大数据技术和关系数据库的技术。这个数据仓库系统也就是Apache HAWQ的前身。交流完后，他们觉得这个数据仓库系统很有意义，希望我能加入Greenplum然后把它产品化，所以我当时就加入了Greenplum，从事HAWQ产品化的工作。

随后几年做的事情，第一组建了中国Greenplum数据库的研发团队，第二把HAWQ从原型系统idea做成了产品。后来，HAWQ在许多世界500强企业里得到了广泛应用。2015年底，HAWQ成为了Apache 的开源项目。去年年底，原来的HAWQ核心团队成立了偶数科技，继续专注于HAWQ的企业版研发。这个过程与Hadoop，Spark的发展都比较类似，比如Hadoop在雅虎里面先做出来，后来创始团队出来创建了Hortonworks，这个公司最近上市了。HAWQ的核心团队也是基于开源的产品来做商业化的工作。

今天的会议主题是“金融科技+区块链”。那么，数据库、金融科技和区块链到底是什么关系呢？区块链技术起源于数字货币，但区块链或分布式帐本都是分布式数据库，因此，它的渊源跟数据库关系是非常紧密的。比如做交易、智能合约等，都可以在分布式数据库里找到它的影子。所以，今天从数据库技术的视角来看区块链或金融科技整个的技术背景。希望给大家提供不同的技术视角。

一、数据仓库生态

整个数据生态系统是非常大的产业，因为大数据比较热，全球是1000-2000亿美金的市场。数据生态系统包括数据源、底层系统、上层各种大数据分析应用。一开始数据在数据源产生，比如它是交易型系统，Oracle或者是MySQL等等。还有其他产生数据的地方，比如说手机、ipad、web服务器等等。数据产生后，经过ETL或收集到数据仓库里面。随着大数据、人工智能、物联网的发展，包括区块链等技术的出现，数据越来越大，对数据仓库的要求越来越高。因此，数据仓库的技术革新是最多的。现在大家看到的Hadoop或Spark、HAWQ基本都属于数据平台的领域。平台上面会有数据治理、数据安全，以及风控等一些大数据应用。下面讲一下数据仓库的演进历程。

二、三代数据仓库的演进历程

从七八十年代到现在，数据仓库的演进大体分为三代。最早期的数据仓库是基于最传统的交易型数据库技术，比如：Oracle，它使用的是共享式存储，是EMC或IBM的高端存储。它的缺点是只能扩展到十几个节点，那么十几个节点后就会碰到存储瓶颈，价格也比较贵。

80年代出现了MPP系统，属于第二代数据仓库。第一个产品化的MPP是Teradata。硬件方面采取了大型机、小型机，以及一些专有硬件的技术。后来出现一些创业公司，比如在2000年左右比较着名的Greenplum、Vertica。它们是基于X86架构的MPP，大规模并行处理MPP系统。这几个创业公司最后都被巨头收购，比如Greenplum被EMC收购，Vertica被惠普收购。

第二代系统解决了可扩展性方面的部分问题，基本上可以到100个节点的规模，但是如果再往上就比较有难度。缺点是这种体系架构决定了可扩展性上不到几千个节点。因为它的工作模式是来了个查询之后，整个查询在所有节点上进行执行，就是每个节点到后来分别并行处理，处理其中一部分任务，这就带来一个缺点，比如：几个人干活容易协调，几千个人在一起干活协调起来很难。机器也一样，协调控制代价很高，各级节点上的负载也不一样。另外，如果执行一个小查询，到后来每个节点上都执行时，它的资源会造成大量浪费。这是第二代系统的缺点。

近些年出现了第三代系统，比如Hadoop上的SQL系统或cloud上的SQL系统，我们称之为新一代数仓。

三、新一代数仓的特点

第三代系统是从大型的互联网公司兴起的，比如Google。因为互联网公司数据量非常大，传统技术解决不了某些问题。他们首先把数据集中起来，形成了现在大家常见的文件系统，如：HDFS，包括其他的分布式文件系统。这些分布式文件系统积累了大量数据后，要做处理，所以有了MapReduce。因为MapReduce不好用，现在被证明了它已经被淘汰。到后来出现了基于MapReduce的SQL引擎，如：Hive。但这一代SQL引擎有不少的缺点，它解决了可扩展性问题，但兼容性稍差。另外，性能方面，Hadoop生态圈，如Hive，SparkSQL性能非常慢。兼容性和性能是第三代系统普遍存在的两个问题。

总体来说，第三代数据仓库可以分为三大类。第一大类：SQL on Hadoop。可以看到SQL on Hadoop是最多的。如SparkSQL、Hive，Presto，因为它的存储基本都在HDFS。第二类叫SQL on Object Store。第一个是Snowflake，，基于亚马逊的S3搭建了SQL on Object Store。S3是一个对象存储系统，它类似于文件系统，存储的是个对象，缺点是不能做简单的内部文件修改，优点是可扩展性包括存储计算分离的好处。另外，亚马逊自己开发的Athena，也基于S3。第三大类是从前面两类系统里发现一些缺陷后又演化出来的系统，比如HAWQ, Impala。客户在使用过程当中想用第三代技术替换传统的MPP或者共享存储，他们发现传统的存储不支持update和delete。如果做update和delete的话，性能会非常差以及混合工作负载性能非常差。所以HAWQ在新一代里面被叫作Hybrid。这时衍生出来自己独立的存储，存储是针对大规模分析处理、并针对NewSQL的工作负载做的存储，同时可以可插拔的访问其他存储。HAWQ, Impala 都属于第三类。

四、NewDW：Oushu Database的前世今生

HAWQ的定位是新一代数据仓库，采取了存储与计算分离的架构，而且可扩展性非常好，兼容性继承了Greenplum的兼容性。

2013年发布了HAWQ第一个版本，性能是Hive的几百倍。现在看，性能还是比Hive要快非常多。2014年我们发表了SIGMOD文章，获得了数据库领域最顶级的世界级的会议认可。2015年我们开源为Apache的项目。2016年底，HAWQ核心团队创立偶数科技，专注于HAWQ企业版。

Oushu Database是HAWQ的企业版本，2017年我们发布了Oushu Database 3.0版本，采用了一个全新的执行器，性能是之前2.0版本的10倍。数据库里面最核心的是什么？研究最多的就是性能，而且性能也是最难的。虽然说数据库研究了很多年，但是性能方面，如果能利用好算法特性、新硬件特性，能把性能做的很快，那是非常重要的。

本来HAWQ的性能已经比Hive快很多，这时候你能把HAWQ的性能利用新的CPU的特性，比如说单指令多数据流，就是一条指令可以处理多条数据，这时候你利用并行机制包括新的硬件的特性，能够把性能提高10倍也是非常不容易的。可以说Oushu Database3.0是目前世界上最快的数据仓库引擎。这里有一些Oushu Database3.0与Spark 2.2的一些性能对比的数据。

规划中的Oushu Database 4.0，已经考虑了AI的发展、区块链的发展。这是全球规模部署的架构，它没有主节点，任何节点是P2P的节点。一个节点加进来之后可以自动的识别周围的节点，自动加入里面去。

Oushu Database 4.0有两个特性值得关注。第一就是可以支持跨地理区域的部署。跨地理区域在传统的TP里面做的还是有的，比如说Oracle这些都支持。但是在分析类的数仓系统，尤其几百个、上千个PB这种大数据量，很难实现。所以，Oushu Database 4.0基本上也是世界上第一个在做。

第二就是可以支持mixed workload，就相当于是一个混合工作负载，小查询、索引查询、点查询，或者是大的查询，它可以支持混合的工作负载。其实我们底下的存储层是一个全球分布的NewSQL 引擎，深度上看，你可以看到包括共识算法等等。大家知道，目前区块链技术存在每秒交易量低的瓶颈。但从数据库技术的角度来看，传统上就可以支持非常高的并发。那么，在全球规模部署的情况下然后支持高并发来解决区块链的问题，使用共识算法来解决区块链的问题，这是Oushu Database 4.0的一个非常自然的延伸。

上图是HAWQ全球客户的列表，大公司基本都在用。GE有几百个节点的集群，使用HAWQ做工业大数据平台的底层支撑。纽交所也在用我们的产品，替换传统的Oracle做交易数据的分析处理。偶数科技，简而言之，主要做数据仓库+数据平台衍生的功能。公司核心成员基本来源于Greenplum、EMC和Google等公司。这是我今天报告的主要内容，谢谢大家。

大数据 常雷-新一代数据仓库：Apache HAWQ

大数据 常雷-新一代数据仓库：Apache HAWQ

文档介绍

演讲实录

相关会议文档推荐

相关会议

大数据常雷-新一代数据仓库：Apache HAWQ

大数据常雷-新一代数据仓库：Apache HAWQ