偶数科技常雷：新一代数据仓库

SACC 2017第九届中国系统架构师大会所有文档
微软亚洲研究院闫莺：构建企业级区块链生态
7721次
先声教育秦龙：人工智能助力新时代K12教育
3698次
闲鱼王树彬：闲鱼架构实践
3239次
小米李波：小米生态云应用引擎实践
8303次
徐少杰：Event sourcing & CQRS
6376次
云徙科技李元佳：企业互联网架构实践
6159次
长虹集团孔帅：基于Hybrid的移动应用混合开发模式架构演变
8016次
中国信息通信研究院徐恩庆：重点行业云计算标准体系和评估思路
3029次
中国移动刘军卫：中移苏研存储产品化之路
1717次
优调科技朱妤晴：技术前沿进展：系统自动化调优
2569次
转转张相於：C2C市场中推荐系统的挑战与机遇
1740次
资深技术专家占超群：迎接在线化与开放化分析时代
8482次
李珂：vivo大规模机器学习实践
5146次
刘歧：一个简单的直播服务引发的悲剧
7656次
毛大鹏：机器学习和未知样本检测
3194次
美团付雅文：美团配送移动网关建设实战
6996次
美团外卖刘宏伟：美团外卖自动化业务运维系统建设
5228次
魅族段启智：Android多分支代码自动同步
2291次
摩拜李凯：摩拜开源技术的线上应用之路
5341次
蘑菇街刘旭晖：大数据平台调度系统架构理论和实践
9816次
去哪儿网马文：基于Mesos Docker的Elasticsearch容器化私有云
5227次
上汽集团李涛：站在云时代的路口
8254次
数美关涛：实时大数据在风控中的实践
5237次
思必驰张顺：可定制开发的语音交互技术
3283次
搜狗张杰：前端测试质量的度量
2038次
搜狗申贤强：分布式存储优化与离线混布弹性计算平台
10713次
搜狗语音陈伟：搜狗智能语音之路
10150次
苏宁黄宙：潜行狙击--业务安全大数据融合
1627次
苏宁易购朱羿全：苏宁易购全站HTTPS实践之路
8075次
腾讯涂远东：VR视频直播探索与创新
8210次
腾讯音乐李深远：QQ音乐的个性化探索
3068次
腾讯音乐罗静：全民K歌黑产对抗之路
7391次
腾讯谭国富：深度学习在图像审核的应用
4482次
天云大数据李从武：人工智能驱动Fintech
6937次
同盾科技张新波：拥抱金融科技的几个误区
10064次
王苹：荣之联大数据平台的应用实践
10199次
苏宁云商王一硼：移动端统一接入层
8328次
网易孙建良：网易新一代对象存储引擎
8406次
阿里巴巴江文斐：窄带高清，打造新优酷极致体验
1557次
阿里巴巴金吉祥：万亿级数据洪峰下的消息引擎
3669次
阿里巴巴蔡龙军：面向未来的泛内容AI平台建设实践
5294次
阿里巴巴何源：阿里网络故障智能化治理
6458次
阿里巴巴默燧：移动端图像加载优化与增强
4794次
阿里人工智能实验室王天舟：语音识别技术回顾及应用
9219次
爱奇艺张超：爱奇艺广告大数据实践
8676次
百度外卖梁福坤：基于Druid的大数据采集即计算实践
7376次
腾讯云陈龙：云+时代大数据平台应用方案
7735次
滴滴许令波：统一资源调度平台建设实践
7613次
滴滴王海：滴滴移动端基础架构的演进与探索
1553次
滴滴研究院李秀林：智能交互美好出行
7055次
第四范式程晓澄：机器学习在推荐系统中的应用
6675次
瓜子二手车彭超：瓜子云的落地
1627次
为胜科技郭宏泽：基于容器的持续集成平台建设
5232次
海纳云邹均：区块链与数据时代
9965次
慧川智能刘曦：ImageNet挑战赛之后的计算机视觉新征程_IT168文库
5822次
姜凤波：全用户态服务开发套件F-Stack
6254次
金山云郝明非：H.265在视频直播场景下的应用演进
4924次
锦佰安冯继强：AI领域的人机识别对抗千亿美金的验证码
10955次
京东高新刚：京东金融数据库多场景架构实践
11241次
京东丁俊：京东分布式K-V存储设计与挑战
8040次
京东桂创华：京东图片系统演进
9288次
京东搜索尹德位：京东亿级流量海量数据搜索架构
3264次
京东云张成远：云时代的数据库演变之路
8992次
京东云朱凌：京东云为企业提供智能化之路
4958次
VMware 张海宁：使用Kubernetes部署超级账本Fabric
2650次
58同城沈剑：58速运数据库降压优化实践
7041次
360 李东亮：云端图像技术的深度学习模型与应用
9593次
360 陈宗志：大容量redis存储方案--Pika
8194次
AWS 薛峰：云平台计算服务进化之路
6892次
INT基金会项若飞：INTchain在大宗商品物流应用的架构探讨
7736次
Qunar 黄勇：去哪网数据库架构发展历程
4420次

偶数科技常雷：新一代数据仓库

所属会议：SACC 2017第九届中国系统架构师大会会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

1788次
浏览次数

SACC 2017第九届中国系统架构师大会所有文档微软亚洲研究院闫莺：构建企业级区块链生态先声教育秦龙：人工智能助力新时代K12教育闲鱼王树彬：闲鱼架构实践小米李波：小米生态云应用引擎实践徐少杰：Event sourcing & CQRS 云徙科技李元佳：企业互联网架构实践长虹集团孔帅：基于Hybrid的移动应用混合开发模式架构演变中国信息通信研究院徐恩庆：重点行业云计算标准体系和评估思路中国移动刘军卫：中移苏研存储产品化之路优调科技朱妤晴：技术前沿进展：系统自动化调优转转张相於：C2C市场中推荐系统的挑战与机遇资深技术专家占超群：迎接在线化与开放化分析时代李珂：vivo大规模机器学习实践刘歧：一个简单的直播服务引发的悲剧毛大鹏：机器学习和未知样本检测美团付雅文：美团配送移动网关建设实战美团外卖刘宏伟：美团外卖自动化业务运维系统建设魅族段启智：Android多分支代码自动同步摩拜李凯：摩拜开源技术的线上应用之路蘑菇街刘旭晖：大数据平台调度系统架构理论和实践去哪儿网马文：基于Mesos Docker的Elasticsearch容器化私有云上汽集团李涛：站在云时代的路口数美关涛：实时大数据在风控中的实践思必驰张顺：可定制开发的语音交互技术搜狗张杰：前端测试质量的度量搜狗申贤强：分布式存储优化与离线混布弹性计算平台搜狗语音陈伟：搜狗智能语音之路苏宁黄宙：潜行狙击--业务安全大数据融合苏宁易购朱羿全：苏宁易购全站HTTPS实践之路腾讯涂远东：VR视频直播探索与创新腾讯音乐李深远：QQ音乐的个性化探索腾讯音乐罗静：全民K歌黑产对抗之路腾讯谭国富：深度学习在图像审核的应用天云大数据李从武：人工智能驱动Fintech 同盾科技张新波：拥抱金融科技的几个误区王苹：荣之联大数据平台的应用实践苏宁云商王一硼：移动端统一接入层网易孙建良：网易新一代对象存储引擎阿里巴巴江文斐：窄带高清，打造新优酷极致体验阿里巴巴金吉祥：万亿级数据洪峰下的消息引擎阿里巴巴蔡龙军：面向未来的泛内容AI平台建设实践阿里巴巴何源：阿里网络故障智能化治理阿里巴巴默燧：移动端图像加载优化与增强阿里人工智能实验室王天舟：语音识别技术回顾及应用爱奇艺张超：爱奇艺广告大数据实践百度外卖梁福坤：基于Druid的大数据采集即计算实践腾讯云陈龙：云+时代大数据平台应用方案滴滴许令波：统一资源调度平台建设实践滴滴王海：滴滴移动端基础架构的演进与探索滴滴研究院李秀林：智能交互美好出行第四范式程晓澄：机器学习在推荐系统中的应用瓜子二手车彭超：瓜子云的落地为胜科技郭宏泽：基于容器的持续集成平台建设海纳云邹均：区块链与数据时代慧川智能刘曦：ImageNet挑战赛之后的计算机视觉新征程_IT168文库姜凤波：全用户态服务开发套件F-Stack 金山云郝明非：H.265在视频直播场景下的应用演进锦佰安冯继强：AI领域的人机识别对抗千亿美金的验证码京东高新刚：京东金融数据库多场景架构实践京东丁俊：京东分布式K-V存储设计与挑战京东桂创华：京东图片系统演进京东搜索尹德位：京东亿级流量海量数据搜索架构京东云张成远：云时代的数据库演变之路京东云朱凌：京东云为企业提供智能化之路 VMware 张海宁：使用Kubernetes部署超级账本Fabric 58同城沈剑：58速运数据库降压优化实践 360 李东亮：云端图像技术的深度学习模型与应用 360 陈宗志：大容量redis存储方案--Pika AWS 薛峰：云平台计算服务进化之路 INT基金会项若飞：INTchain在大宗商品物流应用的架构探讨 Qunar 黄勇：去哪网数据库架构发展历程

文档介绍



数据仓库的演进分为三代，第一代数据仓库采用共享存储架构（比如Oracle Exadata），可扩性差，使用专有硬件，价格高。第二代数据仓库采用MPP架构，采用无共享架构（比如Teradata），使用普通X86服务器，可扩展至几十节点，但很难满足大数据需求，架构不够灵活，比如难于实现秒级扩容。Apache HAWQ属于第三代数据仓库，使用存储与计算分离架构，可扩展至数千节点，架构灵活。Oushu Database是HAWQ的增强企业版，拥有极速执行引擎，可以轻松取代传统数仓和Hadoop SQL引擎。

演讲实录

三代数据仓库的演进
　　数据仓库最早可以追溯到20世纪80年代末期，IBM研究人员Barry Devlin和Paul Murphy为解决企业集成的问题，创造性的提出了“数据仓库”这一术语。而其真正在企业中得到大规模应用则是始于 1992年Bill Inmon出版的《Building the Data Warehouse》，该书不仅为数据仓库建设定义了非常具体的原则，还提出了很多建设性意见。
　　从首次提出到发展至今，常雷认为数据仓库大概可以分为三个阶段，第一阶段是采用共享架构的传统数据仓库，这类数仓主要是面向传统的BI分析，可扩展性较差，大概是十几个节点;第二阶段是无共享架构的MPP，这类数仓主要是面向有复杂需求的传统BI分析，典型的代表有Teradata、Vertica、Greenplum等等;前两个阶段的数据仓库架构都存在缺乏弹性、不易调整、难以实现秒级扩容等问题，而新一代数据仓库克服了这些困难，实现了弹性伸缩和灵活配置。
　　新一代数据仓库主要是面向大数据和人工智能，支持工业标准的X86服务器，可扩展到上千个节点。如果再进一步细分的话，新一代数据仓库可分为SQL on Hadoop、SQL on Object Store和Hybrid。
　　新一代数据仓库：Oushu Database 3.0
　　Oushu Database 3.0是由偶数科技在今年9月21日推出的新一代企业级分析型数据仓库引擎，是Apache HAWQ的企业增强版本，其最核心的技术是对执行器进行了全新改进，充分利用了新硬件的特性;支持ORC外部存储格式，外部存储性能可提升10-50倍;支持新一代可插拔存储框架，添加一个外部数据源，只需编写几个函数。
　　“光说不练假把式”，下面我们就来和最新版本的SparkSQL 2.2来做一个对比：
　　综合各种SQL语句执行情况来看，Oushu Database的性能相比SparkSQL要快20倍左右。据常雷介绍Oushu Database可以支持PB级数据，在工业、税务、金融和电力领域均有应用，未来会逐步开源出来。
　　不惧强敌，中国数据库蓬勃发展的时代已然来临
　　数据库领域一直是大厂林立，但是初创企业也并不是没有立足之地。《创新者的窘境》中曾描述过巨头企业做的是延续性创新，对现有价值网络的维护和加强，而初创企业做的是破坏性创新，从低毛利市场出发逐步颠覆现有的巨头企业。常雷十分认同这一观点，创业公司打败巨头企业是不可逆的趋势，关键是哪个创业公司会成功。
　　创业是件很苦逼的事情，曾任EMC高级研究员，EMC/Pivotal研发部总监的常雷为什么会选择离开EMC自己创业呢?对此，他表示主要是出于两方面的考虑，一是国内数据库领域的大环境已经不同于一二十年前了，基础软件蓬勃发展的时代已经来临，二是因为大公司中有很多好的idea，但是由于部门众多，流程复杂等等现实原因想要真正落地却很难，所以综合考虑独立创业可能会做得更好，市场会更大。
　　“我们要做世界上最快的数据仓库!”在采访中，常雷掷地有声地向笔者表达了自己的目标。据常雷透露，Oushu Database 4.0也将很快和大家见面，该版本允许跨数据中心部署，全面支持分析系统和核心系统高可用的特性。

马如悦

百度大数据主任架构师

了解更多 >

偶数科技 常雷：新一代数据仓库

偶数科技 常雷：新一代数据仓库

文档介绍

演讲实录

相关会议文档推荐

马如悦

相关会议

偶数科技常雷：新一代数据仓库

偶数科技常雷：新一代数据仓库