首页>会议文档 >

大数据 常雷-新一代数据仓库:Apache HAWQ

page:
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ
大数据 常雷-新一代数据仓库:Apache HAWQ

大数据 常雷-新一代数据仓库:Apache HAWQ

所属会议:GITC 2017全球互联网技术大会 北京站会议地点:北京


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

10844次
浏览次数
GITC 2017全球互联网技术大会 北京站所有文档 移动互联网 金昊 搜狐-如何解决视频直播APP开发与性能痛点 移动互联网 刘振峰 移动社区的云实现和技术实践——Mob刘振峰 移动互联网 齐屹屹 高德地图SDK自动化实践之路高德-下载版 全球化专场-Joe-拥抱全球互联时代_部分1 全球化专场-Joe-拥抱全球互联时代_部分2 全球化专场-Joe-拥抱全球互联时代_部分3 互联网金融 刘发鹏 新零售互联网金融分布式架构实践-GITC2017-V3-4GITC 互联网金融 刘江-携程大数据风控实践携程-下载版 互联网金融 马俊 互联网技术团队如何应对互金业务的多变和挑战 网信财富集团 互联网金融 徐佳晶 Fintech场景下大数据处理的挑战与实践_徐佳晶 互联网金融 杨敏强 金山云互联网金融解决方案 网络安全 董俊杰 业务安全之反爬虫实践猎聘-下载版 网络安全 何艺 流量安全分析平台建设gitc-heyi 网络安全 刘刚 电商大促的那些事 网络安全 王志刚 DevOps开发模式下软件安全 网络安全 袁曙光 Docker安全实践探索 联众游戏-演讲版 网络安全专场 陈莹 实时攻击检测的智能化之路 携程 下载版 移动互联网 陈曦 链家网组件化路由方案解析 链家网路由 GITC 移动互联网 陈云龙 精益化数据分析——让你的企业具有BAT的数据分析能力 移动互联网 董岩-阿里巴巴-Apache Weex:移动研发的进阶之路 移动互联网 胡彪-饿了么Mobile Infrastructure Platform建设 GITC演讲稿 质量&测试 邱化峰 基于java代码的覆盖率在饿了么的应用 质量&测试 茹炳晟 测试基础架构的演进之路 ebay 下载版 质量&测试 陶文-基于流量回放技术进行中台建设 质量&测试 田西西 演讲版PPT 质量&测试 王公瑾 汽车电商架构测试实践 汽车之家 质量&测试 薛亚斌 京东金融app测试探索与实践 质量&测试_何畅_APP自动遍历程序的技术实现 互联网金融 高少峰-金融科技引领金融变革GITC_部分1 互联网金融 高少峰-金融科技引领金融变革GITC_部分2 互联网金融 李少伟 大数据驱动下的互联网金融创新 国美金融-GITC IoT峰会 吴川常 物联网商业系统构建之路 IoT峰会 郑晔 一个工业物联网应用的架构与实现 大大演讲_部分1 IoT峰会 郑晔 一个工业物联网应用的架构与实现 大大演讲_部分2 智慧物流论坛 陈俊波物流无人技术应用与探讨-陈俊波 智慧物流论坛 解本齐-国美安迅物流-GITC2017 智慧物流论坛 杨威 新物流--智能仓储机器人快人一步 智能仓储 让人类不再搬运 智慧物流论坛-李波-盛丰物流结算一体化的探索与实践(新) 智慧物流论坛-李伟-如何做到物流信息化建设的加减乘除_部分1 智慧物流论坛-李伟-如何做到物流信息化建设的加减乘除_部分2 智慧物流专场 伍冠军+苏宁物流在实时大数据的最佳实践 IoT峰会 仇剑东 智能家居生态系统的架构与实践 南京物联传感技术有限公司 IoT峰会 李玉峰 IOT运维之路 前端技术 苗典 小程序框架-teddy 滴滴出行_部分1 前端技术 苗典 小程序框架-teddy 滴滴出行_部分2 前端技术 曲毅 多业务场景下的灰度解决方案2017-11-17_部分1 前端技术 曲毅 多业务场景下的灰度解决方案2017-11-17_部分2 前端技术 禹立彬 苏宁渐进式前后端分离实践 前端技术 郑勇 rn-web的设计与实现 携程_部分1 前端技术 郑勇 rn-web的设计与实现 携程_部分2 前端技术 邓国梁-前端开发前后端分离实践 饿了么-下载版 前端技术 黄勇 酷家乐 Virtual DOM在3D渲染中的应用——类ReactJS库的实现及3D应用 前端技术 林溪-tree-shaking性能优化实践 百度外卖-下载版 基础架构 陈杰-支付宝关系链平台设计与实现 基础架构 高飞航 陌陌服务化架构实践 基础架构 梁向东 饿了么API框架的实践 - API Everything R1 基础架构 刘星辰如何优雅的落地中间件-GITC_部分1 基础架构 刘星辰如何优雅的落地中间件-GITC_部分2 基础架构 刘星辰如何优雅的落地中间件-GITC_部分3 基础架构 宁克凡 目睹直播下载版终稿 基础架构 沈国勋-阿里旺旺百亿消息架构演进 基础架构 沈剑 互联网分层架构演进 基础架构 孙杰 大型企业云平台的实践之路 外发版 基础架构 魏云-轻轻家教-下载版-构建基于容器的混合云架构实践 基础架构 杨培锋 广东奥飞数据科技股份有限公司-下载版 基础架构 张良 小米MySQL高可用架构演进 基础架构 赵国光途牛系统架构演化实践GITC-下载版 基础架构 郑树新 爱奇艺高可用高性能服务器编程架构实践 - v6 大数据 赵天烁_魅族大数据可视化平台建设之路 运维 权熙哲 智能时代数据中心网络实践与趋势 运维 王忠宁-搜狗运维自动化平台架构设计与实践 运维 熊亚军 新ITOM 新监控_部分1 运维 熊亚军 新ITOM 新监控_部分2 运维 熊亚军 新ITOM 新监控_部分3 运维 熊亚军 新ITOM 新监控_部分4 运维 杨金全-微服务架构的应用性能监控 运维 余珂 爱奇艺-爱奇艺基于DPDK的网络优化实践-下载版 运维 周彦伟-用开源工具之利器,善MySQL运维之琐事 运维专场 黄振 开源运维自动化平台架构实现与运营实践 运维专场 宋国欢 猎豹移动可持续性自动化运维的探索与创新 大数据 曹永鹏-Mobike大数据平台建设 大数据 陈涛-喜马拉雅数据计算平台xql 大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏_部分1 大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏_部分2 大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏_部分3 大数据 高鹏 数据分析领域的黑马-ClickHouse-新浪-高鹏_部分4 大数据 黄波 微博机器学习平台实践 大数据 刘一鸣_Kyligence_Apache Kylin加速大数据OLAP 大数据 欧阳辰-实时大数据分析之利器Druid 大数据 吴君-基于大数据的智能交通搜索和一键预定系统 大数据 杨少航 从位置服务到数据赋能 大数据 张博 搜狗人工智能实践与合作生态 大数据 张惠亮 联动大数据处理架构的选择和演进 大数据 张翼-携程大数据平台实践 主会场 郭炜 智能时代的大数据用户分析 主会场 侯震宇_金山云混合云网络架构设计与实现 主会场 谭晓生 互联网进入大安全时代 主会场 王卓然-语义智能:技术探索与产品落地 主会场-陈国成 构建10亿级商品的电商平台架构(微店) 运维 张兴龙-京东基础运维的智能化实践 运维 陈怡婷 呼叫中心语音线路自动化运维之路 运维 程捷 海量数据在线分析技术剖析 运维 强昌金 MySQL_NDB_Cluster实践

文档介绍

Apache HAWQ是一个新一代数据仓库引擎,它的新颖设计有效得结合了MPP数据库的性能以及Hadoop的可扩展性优势。它给用户提供了SQL标准兼容的接口,以及轻松管理和分析PB级数据的能力。HAWQ已经在数百个国际大中型企业部署应用,包括GE、纽交所、京东和中国移动等。在这个报告中,常雷博士将介绍Apache HAWQ技术架构、应用情况,以及正在研发的新功能。

演讲实录

很高兴今天下午有机会可以跟大家交流一下我们做的一些工作。简单介绍下自己,之前我博士毕业后加入了EMC,当时EMC收购了Greenplum,这是当时一家研发数据库的创业公司。收购后,两个创始人来到中国建立研发中心,大家交流了我当时做的一个数据仓库研究系统,该系统结合了当时流行的大数据技术和关系数据库的技术。这个数据仓库系统也就是Apache HAWQ的前身。交流完后,他们觉得这个数据仓库系统很有意义,希望我能加入Greenplum然后把它产品化,所以我当时就加入了Greenplum,从事HAWQ产品化的工作。

随后几年做的事情,第一组建了中国Greenplum数据库的研发团队,第二把HAWQ从原型系统idea做成了产品。后来,HAWQ在许多世界500强企业里得到了广泛应用。2015年底,HAWQ成为了Apache 的开源项目。去年年底,原来的HAWQ核心团队成立了偶数科技,继续专注于HAWQ的企业版研发。这个过程与Hadoop,Spark的发展都比较类似,比如Hadoop在雅虎里面先做出来,后来创始团队出来创建了Hortonworks,这个公司最近上市了。HAWQ的核心团队也是基于开源的产品来做商业化的工作。

今天的会议主题是“金融科技+区块链”。那么,数据库、金融科技和区块链到底是什么关系呢?区块链技术起源于数字货币,但区块链或分布式帐本都是分布式数据库,因此,它的渊源跟数据库关系是非常紧密的。比如做交易、智能合约等,都可以在分布式数据库里找到它的影子。所以,今天从数据库技术的视角来看区块链或金融科技整个的技术背景。希望给大家提供不同的技术视角。

一、数据仓库生态

整个数据生态系统是非常大的产业,因为大数据比较热,全球是1000-2000亿美金的市场。数据生态系统包括数据源、底层系统、上层各种大数据分析应用。一开始数据在数据源产生,比如它是交易型系统,Oracle或者是MySQL等等。还有其他产生数据的地方,比如说手机、ipad、web服务器等等。数据产生后,经过ETL或收集到数据仓库里面。随着大数据、人工智能、物联网的发展,包括区块链等技术的出现,数据越来越大,对数据仓库的要求越来越高。因此,数据仓库的技术革新是最多的。现在大家看到的Hadoop或Spark、HAWQ基本都属于数据平台的领域。平台上面会有数据治理、数据安全,以及风控等一些大数据应用。下面讲一下数据仓库的演进历程。

二、三代数据仓库的演进历程

从七八十年代到现在,数据仓库的演进大体分为三代。最早期的数据仓库是基于最传统的交易型数据库技术,比如:Oracle,它使用的是共享式存储,是EMC或IBM的高端存储。它的缺点是只能扩展到十几个节点,那么十几个节点后就会碰到存储瓶颈,价格也比较贵。

80年代出现了MPP系统,属于第二代数据仓库。第一个产品化的MPP是Teradata。硬件方面采取了大型机、小型机,以及一些专有硬件的技术。后来出现一些创业公司,比如在2000年左右比较着名的Greenplum、Vertica。它们是基于X86架构的MPP,大规模并行处理MPP系统。这几个创业公司最后都被巨头收购,比如Greenplum被EMC收购,Vertica被惠普收购。

第二代系统解决了可扩展性方面的部分问题,基本上可以到100个节点的规模,但是如果再往上就比较有难度。缺点是这种体系架构决定了可扩展性上不到几千个节点。因为它的工作模式是来了个查询之后,整个查询在所有节点上进行执行,就是每个节点到后来分别并行处理,处理其中一部分任务,这就带来一个缺点,比如:几个人干活容易协调,几千个人在一起干活协调起来很难。机器也一样,协调控制代价很高,各级节点上的负载也不一样。另外,如果执行一个小查询,到后来每个节点上都执行时,它的资源会造成大量浪费。这是第二代系统的缺点。

近些年出现了第三代系统,比如Hadoop上的SQL系统或cloud上的SQL系统,我们称之为新一代数仓。

三、新一代数仓的特点

第三代系统是从大型的互联网公司兴起的,比如Google。因为互联网公司数据量非常大,传统技术解决不了某些问题。他们首先把数据集中起来,形成了现在大家常见的文件系统,如:HDFS,包括其他的分布式文件系统。这些分布式文件系统积累了大量数据后,要做处理,所以有了MapReduce。因为MapReduce不好用,现在被证明了它已经被淘汰。到后来出现了基于MapReduce的SQL引擎,如:Hive。但这一代SQL引擎有不少的缺点,它解决了可扩展性问题,但兼容性稍差。另外,性能方面,Hadoop生态圈,如Hive,SparkSQL性能非常慢。兼容性和性能是第三代系统普遍存在的两个问题。

总体来说,第三代数据仓库可以分为三大类。第一大类:SQL on Hadoop。可以看到SQL on Hadoop是最多的。如SparkSQL、Hive,Presto,因为它的存储基本都在HDFS。第二类叫SQL on Object Store。第一个是Snowflake,,基于亚马逊的S3搭建了SQL on Object Store。S3是一个对象存储系统,它类似于文件系统,存储的是个对象,缺点是不能做简单的内部文件修改,优点是可扩展性包括存储计算分离的好处。另外,亚马逊自己开发的Athena,也基于S3。第三大类是从前面两类系统里发现一些缺陷后又演化出来的系统,比如HAWQ, Impala。客户在使用过程当中想用第三代技术替换传统的MPP或者共享存储,他们发现传统的存储不支持update和delete。如果做update和delete的话,性能会非常差以及混合工作负载性能非常差。所以HAWQ在新一代里面被叫作Hybrid。这时衍生出来自己独立的存储,存储是针对大规模分析处理、并针对NewSQL的工作负载做的存储,同时可以可插拔的访问其他存储。HAWQ, Impala 都属于第三类。

四、NewDW:Oushu Database的前世今生

HAWQ的定位是新一代数据仓库,采取了存储与计算分离的架构,而且可扩展性非常好,兼容性继承了Greenplum的兼容性。

2013年发布了HAWQ第一个版本,性能是Hive的几百倍。现在看,性能还是比Hive要快非常多。2014年我们发表了SIGMOD文章,获得了数据库领域最顶级的世界级的会议认可。2015年我们开源为Apache的项目。2016年底,HAWQ核心团队创立偶数科技,专注于HAWQ企业版。

Oushu Database是HAWQ的企业版本,2017年我们发布了Oushu Database 3.0版本,采用了一个全新的执行器,性能是之前2.0版本的10倍。数据库里面最核心的是什么?研究最多的就是性能,而且性能也是最难的。虽然说数据库研究了很多年,但是性能方面,如果能利用好算法特性、新硬件特性,能把性能做的很快,那是非常重要的。

本来HAWQ的性能已经比Hive快很多,这时候你能把HAWQ的性能利用新的CPU的特性,比如说单指令多数据流,就是一条指令可以处理多条数据,这时候你利用并行机制包括新的硬件的特性,能够把性能提高10倍也是非常不容易的。可以说Oushu Database3.0是目前世界上最快的数据仓库引擎。这里有一些Oushu Database3.0与Spark 2.2的一些性能对比的数据。

规划中的Oushu Database 4.0,已经考虑了AI的发展、区块链的发展。这是全球规模部署的架构,它没有主节点,任何节点是P2P的节点。一个节点加进来之后可以自动的识别周围的节点,自动加入里面去。

Oushu Database 4.0有两个特性值得关注。第一就是可以支持跨地理区域的部署。跨地理区域在传统的TP里面做的还是有的,比如说Oracle这些都支持。但是在分析类的数仓系统,尤其几百个、上千个PB这种大数据量,很难实现。所以,Oushu Database 4.0基本上也是世界上第一个在做。

第二就是可以支持mixed workload,就相当于是一个混合工作负载,小查询、索引查询、点查询,或者是大的查询,它可以支持混合的工作负载。其实我们底下的存储层是一个全球分布的NewSQL 引擎,深度上看,你可以看到包括共识算法等等。大家知道,目前区块链技术存在每秒交易量低的瓶颈。但从数据库技术的角度来看,传统上就可以支持非常高的并发。那么,在全球规模部署的情况下然后支持高并发来解决区块链的问题,使用共识算法来解决区块链的问题,这是Oushu Database 4.0的一个非常自然的延伸。

上图是HAWQ全球客户的列表,大公司基本都在用。GE有几百个节点的集群,使用HAWQ做工业大数据平台的底层支撑。纽交所也在用我们的产品,替换传统的Oracle做交易数据的分析处理。偶数科技,简而言之,主要做数据仓库+数据平台衍生的功能。公司核心成员基本来源于Greenplum、EMC和Google等公司。这是我今天报告的主要内容,谢谢大家。

×

打开微信扫一扫,分享到朋友圈