首页>会议文档 >

偶数科技 常雷:新一代数据仓库

page:
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库
偶数科技 常雷:新一代数据仓库

偶数科技 常雷:新一代数据仓库

所属会议:SACC 2017第九届中国系统架构师大会会议地点:北京


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

1278次
浏览次数
SACC 2017第九届中国系统架构师大会所有文档 微软亚洲研究院 闫莺:构建企业级区块链生态 先声教育 秦龙:人工智能助力新时代K12教育 闲鱼 王树彬:闲鱼架构实践 小米 李波:小米生态云应用引擎实践 徐少杰:Event sourcing & CQRS 云徙科技 李元佳:企业互联网架构实践 长虹集团 孔帅:基于Hybrid的移动应用混合开发模式架构演变 中国信息通信研究院 徐恩庆:重点行业云计算标准体系和评估思路 中国移动 刘军卫:中移苏研存储产品化之路 优调科技 朱妤晴:技术前沿进展:系统自动化调优 转转 张相於:C2C市场中推荐系统的挑战与机遇 资深技术专家 占超群:迎接在线化与开放化分析时代 李珂:vivo大规模机器学习实践 刘歧:一个简单的直播服务引发的悲剧 毛大鹏:机器学习和未知样本检测 美团 付雅文:美团配送移动网关建设实战 美团外卖 刘宏伟:美团外卖自动化业务运维系统建设 魅族 段启智:Android多分支代码自动同步 摩拜李凯:摩拜开源技术的线上应用之路 蘑菇街 刘旭晖:大数据平台调度系统架构理论和实践 去哪儿网 马文:基于Mesos Docker的Elasticsearch容器化私有云 上汽集团 李涛:站在云时代的路口 数美 关涛:实时大数据在风控中的实践 思必驰 张顺:可定制开发的语音交互技术 搜狗 张杰:前端测试质量的度量 搜狗 申贤强:分布式存储优化与离线混布弹性计算平台 搜狗语音 陈伟:搜狗智能语音之路 苏宁 黄宙:潜行狙击--业务安全大数据融合 苏宁易购 朱羿全:苏宁易购全站HTTPS实践之路 腾讯 涂远东:VR视频直播探索与创新 腾讯音乐 李深远:QQ音乐的个性化探索 腾讯音乐 罗静:全民K歌黑产对抗之路 腾讯 谭国富:深度学习在图像审核的应用 天云大数据 李从武:人工智能驱动Fintech 同盾科技 张新波:拥抱金融科技的几个误区 王苹:荣之联大数据平台的应用实践 苏宁云商 王一硼:移动端统一接入层 网易 孙建良:网易新一代对象存储引擎 阿里巴巴 江文斐:窄带高清,打造新优酷极致体验 阿里巴巴 金吉祥:万亿级数据洪峰下的消息引擎 阿里巴巴 蔡龙军:面向未来的泛内容AI平台建设实践 阿里巴巴 何源:阿里网络故障智能化治理 阿里巴巴 默燧:移动端图像加载优化与增强 阿里人工智能实验室 王天舟:语音识别技术回顾及应用 爱奇艺 张超:爱奇艺广告大数据实践 百度外卖 梁福坤:基于Druid的大数据采集即计算实践 腾讯云 陈龙:云+时代大数据平台应用方案 滴滴 许令波:统一资源调度平台建设实践 滴滴 王海:滴滴移动端基础架构的演进与探索 滴滴研究院 李秀林:智能交互 美好出行 第四范式 程晓澄:机器学习在推荐系统中的应用 瓜子二手车 彭超:瓜子云的落地 为胜科技 郭宏泽:基于容器的持续集成平台建设 海纳云 邹均:区块链与数据时代 慧川智能 刘曦:ImageNet挑战赛之后的计算机视觉新征程_IT168文库 姜凤波:全用户态服务开发套件F-Stack 金山云 郝明非:H.265在视频直播场景下的应用演进 锦佰安 冯继强:AI领域的人机识别对抗 千亿美金的验证码 京东 高新刚:京东金融数据库多场景架构实践 京东 丁俊:京东分布式K-V存储设计与挑战 京东 桂创华:京东图片系统演进 京东搜索 尹德位:京东亿级流量海量数据搜索架构 京东云 张成远:云时代的数据库演变之路 京东云 朱凌:京东云为企业提供智能化之路 VMware 张海宁:使用Kubernetes部署超级账本Fabric 58同城 沈剑:58速运数据库降压优化实践 360 李东亮:云端图像技术的深度学习模型与应用 360 陈宗志:大容量redis存储方案--Pika AWS 薛峰:云平台计算服务进化之路 INT基金会 项若飞:INTchain在大宗商品物流应用的架构探讨 Qunar 黄勇:去哪网数据库架构发展历程

文档介绍

数据仓库的演进分为三代,第一代数据仓库采用共享存储架构(比如Oracle Exadata),可扩性差,使用专有硬件,价格高。第二代数据仓库采用MPP架构,采用无共享架构(比如Teradata),使用普通X86服务器,可扩展至几十节点,但很难满足大数据需求,架构不够灵活,比如难于实现秒级扩容。Apache HAWQ属于第三代数据仓库,使用存储与计算分离架构,可扩展至数千节点,架构灵活。Oushu Database是HAWQ的增强企业版,拥有极速执行引擎,可以轻松取代传统数仓和Hadoop SQL引擎。

演讲实录

三代数据仓库的演进
  数据仓库最早可以追溯到20世纪80年代末期,IBM研究人员Barry Devlin和Paul Murphy为解决企业集成的问题,创造性的提出了“数据仓库”这一术语。而其真正在企业中得到大规模应用则是始于 1992年Bill Inmon出版的《Building the Data Warehouse》,该书不仅为数据仓库建设定义了非常具体的原则,还提出了很多建设性意见。
  从首次提出到发展至今,常雷认为数据仓库大概可以分为三个阶段,第一阶段是采用共享架构的传统数据仓库,这类数仓主要是面向传统的BI分析,可扩展性较差,大概是十几个节点;第二阶段是无共享架构的MPP,这类数仓主要是面向有复杂需求的传统BI分析,典型的代表有Teradata、Vertica、Greenplum等等;前两个阶段的数据仓库架构都存在缺乏弹性、不易调整、难以实现秒级扩容等问题,而新一代数据仓库克服了这些困难,实现了弹性伸缩和灵活配置。
  新一代数据仓库主要是面向大数据和人工智能,支持工业标准的X86服务器,可扩展到上千个节点。如果再进一步细分的话,新一代数据仓库可分为SQL on Hadoop、SQL on Object Store和Hybrid。
  新一代数据仓库:Oushu Database 3.0
  Oushu Database 3.0是由偶数科技在今年9月21日推出的新一代企业级分析型数据仓库引擎,是Apache HAWQ的企业增强版本,其最核心的技术是对执行器进行了全新改进,充分利用了新硬件的特性;支持ORC外部存储格式,外部存储性能可提升10-50倍;支持新一代可插拔存储框架,添加一个外部数据源,只需编写几个函数。
  “光说不练假把式”,下面我们就来和最新版本的SparkSQL 2.2来做一个对比:
  综合各种SQL语句执行情况来看,Oushu Database的性能相比SparkSQL要快20倍左右。据常雷介绍Oushu Database可以支持PB级数据,在工业、税务、金融和电力领域均有应用,未来会逐步开源出来。
  不惧强敌,中国数据库蓬勃发展的时代已然来临
  数据库领域一直是大厂林立,但是初创企业也并不是没有立足之地。《创新者的窘境》中曾描述过巨头企业做的是延续性创新,对现有价值网络的维护和加强,而初创企业做的是破坏性创新,从低毛利市场出发逐步颠覆现有的巨头企业。常雷十分认同这一观点,创业公司打败巨头企业是不可逆的趋势,关键是哪个创业公司会成功。
  创业是件很苦逼的事情,曾任EMC高级研究员,EMC/Pivotal研发部总监的常雷为什么会选择离开EMC自己创业呢?对此,他表示主要是出于两方面的考虑,一是国内数据库领域的大环境已经不同于一二十年前了,基础软件蓬勃发展的时代已经来临,二是因为大公司中有很多好的idea,但是由于部门众多,流程复杂等等现实原因想要真正落地却很难,所以综合考虑独立创业可能会做得更好,市场会更大。
  “我们要做世界上最快的数据仓库!”在采访中,常雷掷地有声地向笔者表达了自己的目标。据常雷透露,Oushu Database 4.0也将很快和大家见面,该版本允许跨数据中心部署,全面支持分析系统和核心系统高可用的特性。

×

打开微信扫一扫,分享到朋友圈