英特尔王道远 - Spinach：基于Spark SQL在生产环境中实现即席查询

2017中国数据库技术大会（DTCC）所有文档
Pivotal 马丽丽 - 原生SQL on Hadoop引擎－Apache HAWQ 2X最新技术解密
6008次
简丽荣 - 云端数据仓库HashData的设计与实现
2539次
微博张欣 - 云上的春节-微博cache混合云实践
3930次
李铮 - 支付宝核心账务去Oracle实践
3966次
袋鼠云闵佳 - 智慧社保解决方案：社保大数据的分析与挖掘实践
2348次
阿里巴巴乔红麟 - 智能数据库诊断优化系统的探索与实践
7471次
腾讯云田兰 - 自然语言技术在文智趋势分析产品上的应用
7840次
PostgreSQL 彭煜玮 - 新的里程碑--PostgreSQL 10-0 新特性介绍
9566次
新浪网赵景波 - 新浪Redis运维实践
10196次
币看刘洋 - 新型数据库－区块链
4361次
百度朱剑锋 - 基于深度学习的图片检索应用
9337次
飞谷云张粤磊 - 基于私有云的大数据运维实践
4781次
甲骨文李珈 - 甲骨文云数据库技术十大变革
2907次
富麦信息余军 - 金融行业基于容器技术的OLTP数据库技术
4290次
京东戴东东 - 京东弹性数据库
1406次
Pivotal Greenplum 姚延栋 - 开源 MPP数据库的不二之选 Greenplum 5.0
10349次
中国人民大学卞昊穹 - 宽表列存储在大数据分析中的应用与优化
2946次
联想张成松 - 扩展Spark引擎支持MPP计算场景替换大规模企业级传统数据仓库
5346次
知数堂叶金荣 - 老叶聊MySQL DBA
2423次
平安科技栾长苗 - 利用DTRACE定位Oracle高并发堵塞案例－
4860次
魅族李翔 - 魅族广告平台算法与模型解析
5722次
魅族云龙启东 - 魅族数据库平台建设实践
5307次
阿里巴巴张瑞 - 面向未来的数据库体系架构的思考
8341次
凡普金科陈兴隆 - 你知我知的SQL优化
5066次
布比王璟 - 区块链与大数据技术结合的商业应用
7165次
亚马逊 AWS 杨海俊 - 让Amazon Aurora助您的业务腾飞
6027次
MySQL 宋利兵 - 深入理解MySQL Group Replication
9792次
白帽汇公司龙专 - 使用Elasticsearch实现TB级数据搜索
10743次
Terark 雷鹏 - 使用TerarkDB提升MySQL的性能
4506次
中国石油林嵩 - 数据技术在能源行业应用
3186次
IBM 贺华 - 数据可视化-无限可能的艺术
6148次
腾讯云李海翔 - 数据库的并发控制技术深度探索
5198次
云和恩墨盖国强 - 数据与基石 - 中国Oracle用户使用情况分析报告
10588次
热璞科技金官丁 - 私有云数据库的架构演变与未来趋势
6181次
搜狗谢远江 - 搜索引擎的性能优化之路
8791次
网易郑良榉 - 网易游戏MongoDB数据备份与恢复实践
3731次
微软刘士君 - 微软云计算在风电行业的智能化实践
5577次
Bloom.io 杨旭钧 - 下一代实时流数据处理平台介绍
3650次
徐王锦 - 互联网金融公司数据存储变迁
2402次
苏宁李伟 - 会话系统实战-苏宁聊商平台
27630次
匠意咨询李奇 - 会讲故事的图表 – 高交互数据展现
5886次
链家网宋鑫 - 机器学习技术在房屋估价中的应用
6676次
南京大学顾荣 - 基于Alluxio提升Spark和HDFS的性能与稳定性
6094次
平安科技杜灵强 - 基于GoldenGate产品的实时数据同步平台架构演进
11143次
360 李振炜 - 基于SparkSQL的海量数据仓库设计与实践
3221次
区块链铅笔龚鸣 - 基于比特币区块链的大数据分析
5028次
北京跃盟科技李东军 - 基于内容语义的原生广告核心技术
9299次
优酷高嵩 - 大规模redis集群的服务治理之路
7164次
数字冰雹丁冬 - 大数据可视决策的行业应用
3029次
京东 - 大数据实时处理架构实践
2354次
本来生活网范学蠡 - 大数据在本来生活的应用
7525次
中国工商银行李雁南 - 断舍离，测试环境数据库性能监控实践
9435次
金鑫 - 分布式数据分析与挖掘系统及算法实战
7819次
清华大学王晨 - 工业大数据技术与实践
7385次
大数据研究院王鑫 - 广播电视数据可视化技术研究
4568次
红象云腾童小军 - 海量结构化和非结构化大数据Hadoop集群规划
5705次
Oracle 周亮 - Oracle 12-2来了，DBA准备好了吗
6046次
腾讯云许中清 - Postgres-XZ的数据治理经验分享
2012次
PowerPivot 赵文超 - Power BI数据可视化展现－
10376次
英特尔程浩 - Spark大数据计算性能调优与硬件选型性价比
6705次
云和恩墨罗海雄 - SQL审核与十大经典案例细数－－Oracle的DevOps实战
7545次
Twitter 郭斯杰 - Stronger Consistency Simplified with Apache DistributedLog
10484次
腾讯云张青林 - Tencent MySQL内核优化解析
4574次
The Best Practices for Moving Oracle Database to the Cloud－Joel Perez
7301次
PingCAP 黄东旭 - When TiDB meets Kubernetes
6095次
阿里巴巴秦国安 - 阿里巴巴数据库容器化资源调度与实践
5325次
百度马如悦 - 百度 NewSQL数据库系统
6641次
百度外卖徐俊劲 - 百度外卖数据库智能运维
5835次
百度杨嘉义 - 百度在线用户数据服务系统
10688次
Facebook 卢钧轶 - Facebook Online Schema Change原理和大规模表结构变更最佳实践
6344次
华为时金魁 - Flink技术栈及其适用场景
10084次
湖南大学彭鹏 - gStore—一种开源图数据库系统及其在企业中的应用
7203次
河狸家黄伟伦 - HIVE迁移spark实践
7118次
IBM 陈剑 - IBM区块链技术、解决方案介绍和落地案例分享
5141次
小米张震 - Kudu架构介绍及其在小米的应用实践
8969次
杭州沃趣董红禹 - MySQL分布式平台在金融业的最佳实践
9149次
民生银行徐春阳 - MySQL核心参数含义的源码解析
8604次
去哪儿网周彦伟 - MySQL集群化的三种武器——MNC，MGC与MIC
3964次
美团网王兴星 - O2O商业变现的架构探索
10010次
饿了么马尧 - O2O搜索优化实践之道
9846次
蚂蚁金服杨传辉 - OceanBase：云时代的关系数据库
5828次
58到家沈剑 - 100亿数据量1万属性数据库架构设计
3926次
阿里巴巴李永亮 - AI在阿里电商搜索的应用
4969次
eBay 郭跃鹏 - Apache Griffin-分布式系统的数据质量方案
2819次
搜狐畅游杨建荣 - DBA成长沉思录
6570次
京东刘启荣 - DBA日常修炼咒
7161次

英特尔王道远 - Spinach：基于Spark SQL在生产环境中实现即席查询

所属会议：2017中国数据库技术大会（DTCC）会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

1541次
浏览次数

2017中国数据库技术大会（DTCC）所有文档 Pivotal 马丽丽 - 原生SQL on Hadoop引擎－Apache HAWQ 2X最新技术解密简丽荣 - 云端数据仓库HashData的设计与实现微博张欣 - 云上的春节-微博cache混合云实践李铮 - 支付宝核心账务去Oracle实践袋鼠云闵佳 - 智慧社保解决方案：社保大数据的分析与挖掘实践阿里巴巴乔红麟 - 智能数据库诊断优化系统的探索与实践腾讯云田兰 - 自然语言技术在文智趋势分析产品上的应用 PostgreSQL 彭煜玮 - 新的里程碑--PostgreSQL 10-0 新特性介绍新浪网赵景波 - 新浪Redis运维实践币看刘洋 - 新型数据库－区块链百度朱剑锋 - 基于深度学习的图片检索应用飞谷云张粤磊 - 基于私有云的大数据运维实践甲骨文李珈 - 甲骨文云数据库技术十大变革富麦信息余军 - 金融行业基于容器技术的OLTP数据库技术京东戴东东 - 京东弹性数据库 Pivotal Greenplum 姚延栋 - 开源 MPP数据库的不二之选 Greenplum 5.0 中国人民大学卞昊穹 - 宽表列存储在大数据分析中的应用与优化联想张成松 - 扩展Spark引擎支持MPP计算场景替换大规模企业级传统数据仓库知数堂叶金荣 - 老叶聊MySQL DBA 平安科技栾长苗 - 利用DTRACE定位Oracle高并发堵塞案例－魅族李翔 - 魅族广告平台算法与模型解析魅族云龙启东 - 魅族数据库平台建设实践阿里巴巴张瑞 - 面向未来的数据库体系架构的思考凡普金科陈兴隆 - 你知我知的SQL优化布比王璟 - 区块链与大数据技术结合的商业应用亚马逊 AWS 杨海俊 - 让Amazon Aurora助您的业务腾飞 MySQL 宋利兵 - 深入理解MySQL Group Replication 白帽汇公司龙专 - 使用Elasticsearch实现TB级数据搜索 Terark 雷鹏 - 使用TerarkDB提升MySQL的性能中国石油林嵩 - 数据技术在能源行业应用 IBM 贺华 - 数据可视化-无限可能的艺术腾讯云李海翔 - 数据库的并发控制技术深度探索云和恩墨盖国强 - 数据与基石 - 中国Oracle用户使用情况分析报告热璞科技金官丁 - 私有云数据库的架构演变与未来趋势搜狗谢远江 - 搜索引擎的性能优化之路网易郑良榉 - 网易游戏MongoDB数据备份与恢复实践微软刘士君 - 微软云计算在风电行业的智能化实践 Bloom.io 杨旭钧 - 下一代实时流数据处理平台介绍徐王锦 - 互联网金融公司数据存储变迁苏宁李伟 - 会话系统实战-苏宁聊商平台匠意咨询李奇 - 会讲故事的图表 – 高交互数据展现链家网宋鑫 - 机器学习技术在房屋估价中的应用南京大学顾荣 - 基于Alluxio提升Spark和HDFS的性能与稳定性平安科技杜灵强 - 基于GoldenGate产品的实时数据同步平台架构演进 360 李振炜 - 基于SparkSQL的海量数据仓库设计与实践区块链铅笔龚鸣 - 基于比特币区块链的大数据分析北京跃盟科技李东军 - 基于内容语义的原生广告核心技术优酷高嵩 - 大规模redis集群的服务治理之路数字冰雹丁冬 - 大数据可视决策的行业应用京东 - 大数据实时处理架构实践本来生活网范学蠡 - 大数据在本来生活的应用中国工商银行李雁南 - 断舍离，测试环境数据库性能监控实践金鑫 - 分布式数据分析与挖掘系统及算法实战清华大学王晨 - 工业大数据技术与实践大数据研究院王鑫 - 广播电视数据可视化技术研究红象云腾童小军 - 海量结构化和非结构化大数据Hadoop集群规划 Oracle 周亮 - Oracle 12-2来了，DBA准备好了吗腾讯云许中清 - Postgres-XZ的数据治理经验分享 PowerPivot 赵文超 - Power BI数据可视化展现－英特尔程浩 - Spark大数据计算性能调优与硬件选型性价比云和恩墨罗海雄 - SQL审核与十大经典案例细数－－Oracle的DevOps实战 Twitter 郭斯杰 - Stronger Consistency Simplified with Apache DistributedLog 腾讯云张青林 - Tencent MySQL内核优化解析 The Best Practices for Moving Oracle Database to the Cloud－Joel Perez PingCAP 黄东旭 - When TiDB meets Kubernetes 阿里巴巴秦国安 - 阿里巴巴数据库容器化资源调度与实践百度马如悦 - 百度 NewSQL数据库系统百度外卖徐俊劲 - 百度外卖数据库智能运维百度杨嘉义 - 百度在线用户数据服务系统 Facebook 卢钧轶 - Facebook Online Schema Change原理和大规模表结构变更最佳实践华为时金魁 - Flink技术栈及其适用场景湖南大学彭鹏 - gStore—一种开源图数据库系统及其在企业中的应用河狸家黄伟伦 - HIVE迁移spark实践 IBM 陈剑 - IBM区块链技术、解决方案介绍和落地案例分享小米张震 - Kudu架构介绍及其在小米的应用实践杭州沃趣董红禹 - MySQL分布式平台在金融业的最佳实践民生银行徐春阳 - MySQL核心参数含义的源码解析去哪儿网周彦伟 - MySQL集群化的三种武器——MNC，MGC与MIC 美团网王兴星 - O2O商业变现的架构探索饿了么马尧 - O2O搜索优化实践之道蚂蚁金服杨传辉 - OceanBase：云时代的关系数据库 58到家沈剑 - 100亿数据量1万属性数据库架构设计阿里巴巴李永亮 - AI在阿里电商搜索的应用 eBay 郭跃鹏 - Apache Griffin-分布式系统的数据质量方案搜狐畅游杨建荣 - DBA成长沉思录京东刘启荣 - DBA日常修炼咒

文档介绍



随着Spark的广泛应用，在数据仓库中用Spark SQL进行批量查询已经较为常见。尽管Spark SQL已经能支持对丰富的数据源进行高效的数据处理，但对于秒级的查询需求，Spark SQL还有不足之处，而很多企业对此也有很大需求。我们基于Spark SQL开发的项目Spinach，正是为了满足秒级甚至更高要求的即席查询需求。具体来说，Spinach以Fiber为基本单位提供了一套细粒度的分层缓存机制，将数据缓存在堆外内存中，可以有效加速数据的加载。同时，Spinach拓展了Spark SQL的DDL，允许用户自定义索引，目前支持B+树索引和布隆过滤器，可以让用户根据数据特点定义高效的索引，进一步减少IO操作，提升查询效率。Spinach运行时与Spark SQL共享同一个进程，不会引入额外的维护成本。2016年，Intel与百度合作的Spinach平台首个版本在百度内部开放使用，帮助多个核心产品团队从过去低效的批量作业查询方式升级至即席查询模式。在百度的凤巢广告系统中，数据工程师基于每日数T的点击、展现日志进行广告效果分析，Spinach将查询性能提升至原生Spark SQL的5倍，尤其在复杂查询及大数据量分析的场景下将平均延迟从分钟级降低至秒级，同时仅增加3%的索引数据消耗。

阳振坤

蚂蚁金融服务集团高级研究员

了解更多 >

英特尔 王道远 - Spinach：基于Spark SQL在生产环境中实现即席查询

英特尔 王道远 - Spinach：基于Spark SQL在生产环境中实现即席查询

文档介绍

相关会议文档推荐

阳振坤

相关会议

英特尔王道远 - Spinach：基于Spark SQL在生产环境中实现即席查询

英特尔王道远 - Spinach：基于Spark SQL在生产环境中实现即席查询