魔窗张申竣 - 创业公司的大数据平台选型和进化

SACC2016 （第八届）中国系统架构师大会所有文档
开九易云拓朱龙春 - 互联网对传统企业应用架构冲击和机遇
5232次
淘宝郑士汉 - Weex架构简介和性能优化实战
3552次
周亚金 - 安卓应用保护技术发展
4872次
小米电视工程师朱辉 - ZRAM那点事pdf
9784次
小米朱辉 - 支持任意数量watchpoin的建议
8622次
学而思赵文杰 - 交互式直播推流编码器的设计
5047次
搜狗甄丽霞 - 基于Kafka-spark streaming的数据处理系统及测试
10709次
蚂蚁金服郑波 - 网商银行金融云的架构之路
4298次
饿了么徐巍 - 饿了么基础设施进化史
4644次
光载无限许开强 - CDN直播系统的优化
972次
搜狗杨剑飞 - 统一数据平台的实践及思考
2718次
网易蜂巢尧飘海 - 网易蜂巢公有容器云架构之路
8185次
超多维郁树达 - 前进的路上，VR有哪些绕不开的坑
10611次
美团点评喻继鹏 - 互联网行业财务系统架构探讨
3085次
阅文集团徐海峰 - 阅文集团自主分布式文件系统
8645次
哈尔滨银行姜岩 - 运维架构调整与运维工厂模式的建立
5399次
百度张建伟 - 百度大数据离线计算平台流式shuffle服务
2786次
深圳瑞赛张平 - 专业化的风控服务平台的技术架构及实践
3063次
去哪儿网张子天 - Spider-QunarAndroid客户端架构的前世今生
10047次
蜗牛云赵刚 - 京东VRAR实验室在电商VR中的实践
3388次
云计算公司技术专家赵伟 - 负载均衡利器HAProxy功能剖析及部署案例
11004次
中国移动王烨 - 中国移动私有云管理平台架构和实践
2760次
优酷土豆宋慎义 - 为全民直播量身定做流媒体平台
6762次
Linkedin China Engineer Supervisor魏佳 - 图数据库Neo4J的实践之路
3314次
美图魏家富 - 美图公司运维自动化系统架构设计
1142次
阿里巴巴郝豪 - 阿里Android instant run探索与实践
7299次
美团外卖夏华夏 - 架构师的三个基本要求
7830次
爱奇艺谢丹铭 - 爱奇艺业务风控系统
3619次
爱奇艺刘俊晖 - 爱奇艺大数据平台的构建之路
6433次
爱奇艺刘文峰 - 爱奇艺云架构实践优化
9596次
易到用车刘宇 - PHP高性能服务框架架构与实践
8619次
网易刘长伟 - 网易蜂巢Docker研发实践
5211次
刘喆 - 大数据时代AdMaster的运维架构
3916次
去哪儿网路绪清 - 基于大数据的消费信贷平台
6499次
中国移动罗刚毅 - 中国移动异构虚拟化平台统一管理研发与实践
1440次
优酷土豆吕红亮 - 视频精准推荐系统实践
9815次
小米VR团队马坤 - VR技术与展望
5571次
资深云计算架构师马耀泉 - 云计算的高可用实践探索与分享
4364次
袋鼠云宁海元 - 企业级云数据库管控架构设计与实践
5566次
汽车之家欧阳梦南 - 汽车之家移动APP架构演进与性能优化历程
9639次
光载无限欧曜伟 - 光载无限监控体系的变革与演进
7048次
阿里巴巴袁冶平 - 阿里大数据平台发布管理体系
6164次
Hyper.sh 裴彤 - 基于 hyper 容器技术的新一代容器云
3707次
58到家任桃术 - 58到家分布式服务框架
1331次
阿里巴巴桑毅宏 - 互联网公司骨干网规划构
10243次
上汽集团龚瀚申 - 上汽集团基于容器技术的尝试实践
9658次
滴滴出行盛克华 - 滴滴高性能列式KV存储系统实践
9231次
京东寿如阳 - 京东虚假交易识别系统
6356次
信泰人寿章晨曦 - 数据分发平台的架构设计与实践
6041次
爱可生王伟 - 数据之大，云动未来——传统企业从IT到DT的互联网创新最佳实践
6192次
上交所孙长昊 - 上交所基于容器技术的微服务架构技术实践
9336次
魅族覃军 - 魅族基础系统运维之路示
9059次
美团唐义哲 - 美团业务风控系统构建经验
4073次
腾讯程彬 - 腾讯云数据库CDB技术演进之路
2198次
一点资讯王成光 - 轻量级分布式实时计算框架light_drtc
5477次
京东王大泳 - 京东数据中心网络监控实践
2058次
农银王福强 - 农银人寿新一代核心业务系统云平台实践题
9888次
Intel 王华峰、毛玮、张天伦 - 分布式流式数据处理框架：功能对比以及性能评估
6684次
时速云王磊 - 容器云平台在企业中的运维管理和场景实践
11343次
达乎科技王茜 - SDN对传统网络的变革和价值提升
9148次
搜狐视频李修鹏 - 搜狐视频个性化推荐架构设计和实践
5214次
北京邮电大学李昕 - SDN向左，WAN向右
10970次
蜗牛云李晨光 - VR沉浸式视频在移动平台的优化技术分析
2885次
武汉泰迪智慧科技李成华 - 深度学习在自然语言中的应用
8911次
华胜信泰李海翔 - 数据库引擎技术架构
7702次
360 李纪峰 - 云平台安全架构剖析
8401次
蚂蚁金服李三红 - Java企业应用-性能优化原则，方法与策略
3579次
拍拍贷徐王锦 - 金融行业数据库架构变迁
11268次
京东杨海明 - 京东云的架构实践之路
2949次
神策数据曹犟 - 从日志统计到大数据分析
8312次
饿了么常盛 - 饿了么实时架构演进
10448次
DBI 常艳玲 - 架构师现状调查报告解读
4325次
日志易陈军 - IT运维分析与海量日志搜索分析
4999次
华为陈亮 - Apache CarbonData，实现大数据即席查询秒级响应
1548次
百度外卖师陈霖 - 百度外卖服务化实战
11326次
腾讯微信陈晓鹏 - 微信运维实时监控数据上报及存储设计实践
3220次
雪球单艳蕾 - 雪球运维架构体系探索
3536次
证券董国兴 - 传统金融行业企业架构创新与实践
9657次
腾御安樊付强 - GNU工具链里的漏洞利用缓解技术
3299次
国家工商总局付宏伟 - 工商数据中心架构创新之路
11028次
七牛云何李石 - 七牛融合CDN实践
8163次
宜信侯松 - 大数据全流程平台在互联网金融场景下的实现和借鉴意义
7636次
饿了么张雪峰 - 架构师需要面对的两个【架构】
1508次
Apache HAWQ 简丽荣 - 数据仓库架构的变迁
5285次

魔窗张申竣 - 创业公司的大数据平台选型和进化

所属会议：SACC2016 （第八届）中国系统架构师大会会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

5869次
浏览次数

SACC2016 （第八届）中国系统架构师大会所有文档开九易云拓朱龙春 - 互联网对传统企业应用架构冲击和机遇淘宝郑士汉 - Weex架构简介和性能优化实战周亚金 - 安卓应用保护技术发展小米电视工程师朱辉 - ZRAM那点事pdf 小米朱辉 - 支持任意数量watchpoin的建议学而思赵文杰 - 交互式直播推流编码器的设计搜狗甄丽霞 - 基于Kafka-spark streaming的数据处理系统及测试蚂蚁金服郑波 - 网商银行金融云的架构之路饿了么徐巍 - 饿了么基础设施进化史光载无限许开强 - CDN直播系统的优化搜狗杨剑飞 - 统一数据平台的实践及思考网易蜂巢尧飘海 - 网易蜂巢公有容器云架构之路超多维郁树达 - 前进的路上，VR有哪些绕不开的坑美团点评喻继鹏 - 互联网行业财务系统架构探讨阅文集团徐海峰 - 阅文集团自主分布式文件系统哈尔滨银行姜岩 - 运维架构调整与运维工厂模式的建立百度张建伟 - 百度大数据离线计算平台流式shuffle服务深圳瑞赛张平 - 专业化的风控服务平台的技术架构及实践去哪儿网张子天 - Spider-QunarAndroid客户端架构的前世今生蜗牛云赵刚 - 京东VRAR实验室在电商VR中的实践云计算公司技术专家赵伟 - 负载均衡利器HAProxy功能剖析及部署案例中国移动王烨 - 中国移动私有云管理平台架构和实践优酷土豆宋慎义 - 为全民直播量身定做流媒体平台 Linkedin China Engineer Supervisor魏佳 - 图数据库Neo4J的实践之路美图魏家富 - 美图公司运维自动化系统架构设计阿里巴巴郝豪 - 阿里Android instant run探索与实践美团外卖夏华夏 - 架构师的三个基本要求爱奇艺谢丹铭 - 爱奇艺业务风控系统爱奇艺刘俊晖 - 爱奇艺大数据平台的构建之路爱奇艺刘文峰 - 爱奇艺云架构实践优化易到用车刘宇 - PHP高性能服务框架架构与实践网易刘长伟 - 网易蜂巢Docker研发实践刘喆 - 大数据时代AdMaster的运维架构去哪儿网路绪清 - 基于大数据的消费信贷平台中国移动罗刚毅 - 中国移动异构虚拟化平台统一管理研发与实践优酷土豆吕红亮 - 视频精准推荐系统实践小米VR团队马坤 - VR技术与展望资深云计算架构师马耀泉 - 云计算的高可用实践探索与分享袋鼠云宁海元 - 企业级云数据库管控架构设计与实践汽车之家欧阳梦南 - 汽车之家移动APP架构演进与性能优化历程光载无限欧曜伟 - 光载无限监控体系的变革与演进阿里巴巴袁冶平 - 阿里大数据平台发布管理体系 Hyper.sh 裴彤 - 基于 hyper 容器技术的新一代容器云 58到家任桃术 - 58到家分布式服务框架阿里巴巴桑毅宏 - 互联网公司骨干网规划构上汽集团龚瀚申 - 上汽集团基于容器技术的尝试实践滴滴出行盛克华 - 滴滴高性能列式KV存储系统实践京东寿如阳 - 京东虚假交易识别系统信泰人寿章晨曦 - 数据分发平台的架构设计与实践爱可生王伟 - 数据之大，云动未来——传统企业从IT到DT的互联网创新最佳实践上交所孙长昊 - 上交所基于容器技术的微服务架构技术实践魅族覃军 - 魅族基础系统运维之路示美团唐义哲 - 美团业务风控系统构建经验腾讯程彬 - 腾讯云数据库CDB技术演进之路一点资讯王成光 - 轻量级分布式实时计算框架light_drtc 京东王大泳 - 京东数据中心网络监控实践农银王福强 - 农银人寿新一代核心业务系统云平台实践题 Intel 王华峰、毛玮、张天伦 - 分布式流式数据处理框架：功能对比以及性能评估时速云王磊 - 容器云平台在企业中的运维管理和场景实践达乎科技王茜 - SDN对传统网络的变革和价值提升搜狐视频李修鹏 - 搜狐视频个性化推荐架构设计和实践北京邮电大学李昕 - SDN向左，WAN向右蜗牛云李晨光 - VR沉浸式视频在移动平台的优化技术分析武汉泰迪智慧科技李成华 - 深度学习在自然语言中的应用华胜信泰李海翔 - 数据库引擎技术架构 360 李纪峰 - 云平台安全架构剖析蚂蚁金服李三红 - Java企业应用-性能优化原则，方法与策略拍拍贷徐王锦 - 金融行业数据库架构变迁京东杨海明 - 京东云的架构实践之路神策数据曹犟 - 从日志统计到大数据分析饿了么常盛 - 饿了么实时架构演进 DBI 常艳玲 - 架构师现状调查报告解读日志易陈军 - IT运维分析与海量日志搜索分析华为陈亮 - Apache CarbonData，实现大数据即席查询秒级响应百度外卖师陈霖 - 百度外卖服务化实战腾讯微信陈晓鹏 - 微信运维实时监控数据上报及存储设计实践雪球单艳蕾 - 雪球运维架构体系探索证券董国兴 - 传统金融行业企业架构创新与实践腾御安樊付强 - GNU工具链里的漏洞利用缓解技术国家工商总局付宏伟 - 工商数据中心架构创新之路七牛云何李石 - 七牛融合CDN实践宜信侯松 - 大数据全流程平台在互联网金融场景下的实现和借鉴意义饿了么张雪峰 - 架构师需要面对的两个【架构】 Apache HAWQ 简丽荣 - 数据仓库架构的变迁

文档介绍



初创公司有着资源不足，业务需求紧张的特点，并且通常会经历产品验证期，产品成熟期，业务增长期等几个阶段，本次讲座针对如何根据公司发展的不同阶段对大数据计算平台进行技术选型并且不断改造这个主题，结合魔窗的实战经验谈一谈魔窗在这一过程中的心得。

演讲实录

一、充分了解业务需求和产品所处阶段

架构师的职责永远是根据现有的资源不断做trade off，挑选出最适合公司当前状况的技术方案。所以在我们谈大数据平台选型之前，先看一下创业面临的一些挑战和优势：

1.资源不足

2.时间压力大

3.没有技术上的历史包袱，选型相对自由

前两点是搭建大数据平台的挑战，最后一点是优势。对于大部分创业公司而言，这三点挑战和优势始终存在，但是业务特点随着公司的发展会有相应的变化，一般而言我们可以把创业公司的发展分成下面几个不同的阶段：

产品验证阶段：

产品成熟阶段：

业务增长阶段：

下面就结合魔窗的发展经历谈一下围绕这三个不同阶段，魔窗的大数据平台的发展历程。

首先说明一下我们大数据平台的业务需求：

计算由我们的移动端SDK采集过来的包括，日活，应用打开次数，流失用户，回流用户等移动端监测的常用指标。

因为我们是提供基于Deep Link的一系列应用唤醒服务，所以我们还需要监测，从投放在各个渠道的基于DeepLink生成的短链的曝光，安装转化率。

我们还提供各种营销活动的制作和投放，所以还需要监测营销活动的曝光率。

二、产品验证阶段

先看一下这一阶段的业务特点：

1.数据量很小，用户最多只有几十个种子用户，整个监测采集到的数据规模根本不能称作大数据。

2.我们所计算的统计指标也无法确定对用户是否有真正的帮助，很可能整个功能会根据市场反馈最后被砍掉。

这种情况下，我们首先考虑的是要尽量缩小产品验证的成本，所以技术选型的原则很简单，端到端跑通功能，设计和实现上越简单粗暴越好，不需要存在技术积累，被砍了也不可惜。所以这个时候架构的总的原则是保证能够最快速迭代，推倒重来也没关系。

我们的整个计算平台的架构是这样的：

事实上这个都根本不能称作是大数据计算平台，只是一个包含了数据采集，数据计算脚本和数据展示的Java应用，拿目前流行的micro service化来说，这个就是一个micro service 的反例，一个monolithic的应用。

但是非常合适验证产品，利用一些一站式开发框架，修改业务非常简单，MySQL的结构化特点使得计算脚本非常容易。这个架构大约支撑了我们3个月的时间。

三、产品成熟阶段

大约3个月后，我们的产品逐渐成熟稳定了，种子用户也越来越多，此时我们的业务特点发生了变化：

1.计算指标相对稳定，及时加指标也是基于原有的采集点的计算。

2.有一些流量大一点的种子用户进来了，数量也越来越多。

3.计算上分为了实时计算和离线计算这两种需求。

撇开MySQL计算性能的问题不谈，这个时候光是采集数据就会经常造成MySQL连接失效，于是我们在不断优化MySQL服务器端和客户端连接参数的同时，开始了真正的大数据平台的架构。

这个时候的架构有一个总的原则就是可持续迭代，因为产品一旦稳定成熟，技术上就承受不了推到重来的代价了，在这个前提之下我们的架构基于以下原则：

1.采集端保证大吞吐量。

2.在存储和计算节点出问题的情况下，保证在一段时间内采集到的数据不会丢失。

3.性能可以通过Scale Out解决，并且易于做Scale Out。

4.DevOps简单，能够方便的监测和预警。

下面是基于以上原则我们最后的架构：

数据采集

采用Nginx没有什么太大的争议，异步非阻塞，保证大吞吐量

数据暂存区

这里和一些传统的监测架构有所区别，我们并买有采用把Nginx的日志当数据暂存区的办法，而是直接用了Kafka，好处在于：

1.比起磁盘IO, Kafka的吞吐量更大，并且提供了异步写入的方法，保证Nginx采集到的数据能够最及时的进入数据暂存区。

2.消息队列本身就具有分布式的一些特性，比如支持Failover保证高可用，数据可以存放多份，Partition机制使数据的写入和加载更高效。

3.消息队列天生能解决不同种类监测数据区分的业务问题（比如Topic）。

4.比起日志，利用Kafka的API能够方便的处理一些数据续传的问题，比如如果存储节点崩溃了，仅仅利用日志是很难知道下次应该从那条记录开始续传的，Kafka就可以利用客户端保存的Offset（实际上我们每个Kafka客户端的Offset是保存在Zookeeper中的）做到。

数据传输

当时在两种方案里摇摆，一个是Flume 还有一个是Spring XD，最终选择Flume的原因在于：

1.轻量级，使用简单，有大量的source和sink可以用。

2.能被CDH托管（Spring XD不能被CDH托管，但是可以用yarn做资源调度）。

但是这个选择最终造成了后期的一些困扰，之后会提到。

数据存储计算离线计算

Spark+ HDFS的模式相信已经被大家所熟悉，下面之谈一下我们对于Spark的优化心得：

1.了解应用中的RDD的partition,执行中的stage情况，避免过多小任务。

2.尽可能程序中复用RDD,如果多次使用，考虑做cache,根据实际情况选择合适的持久化策略。

3.必要时候使用broadcast 和 accumulator。

4.根据自己的作业具体情况结合系统资源监控调整主要资源类参数，例如 num-executors，executor-memory，executor-cores和spark.default.parallelism等。

5.如果允许，建议尝试官方推荐的Kryo。

6.对于jvm,, 通过打印GC信息了解内存使用情况，调整相应参数。

实时计算

我们又把实时计算拆分成了流式计算和针对特定时间范围内的全体数据集合的实时计算。因为对于像用户留存这样的指标，根据回溯历史数据去做计算是相当困难的，采用流式计算的话会简单很多，我们根据我们的业务特点也并没有引入Storm或者Spark Stream这样的流失框架，而仅仅是在Flume传输数据的过程中，简单地利用HBase做了流式计算。

下面我们将解释一下我们是如何利用HBase来做用户留存率这一指标的计算的。

留存()计算,如果使用传统基于历史数据集的查询非常复杂，我们转换思路，采用了流式的复杂写，简单读的方式。

基本思路如下：

记录设备的首次和上次访问时间

为各租户定义需要计算的留存区间，例如5日留存，7日留存，2周留存，1月留存等，例如某租户tenant1 ,选择配置为计算首日，5日，7日和3月留存。

那么该租户所属的某个app（source App）发送的一条类似如以下的event,tenant1|deviceId1|timeStamp1|action1 ，应用会做以下操作：

1.如果是新deviceId,则上表中新增访问记录。

2.如果不是，例如本例中的deviceId1, 计算距离上次访问时间间隔（以天计）,(timeStamp1-pt1)=2day,更新上表中的previous access time。

3.通过CAS incr. 更新以下留存记录, 如果跨天了，表示这个设备的用户就是留存用户。如果跨1天，表示1天留存，跨3天，表示3天留存，依次类推。这是天的留存，周的留存根据Previous access time判断是否跨周，道理相同。

其他如流失和回流用户基本计算方法比较接近，细节处理各异。

对于特定时间范围内的全体数据集的实时计算，我们选用了Elasticsearch作为实时计算的集群，原因如下：

1.数据结构基于Json，因此是半结构化的数据，易于计算。

2.基于我们的测试，查询的response time基本能够随着节点的增长线性降低。

3.非常容易做Scale Out，非常容易通过参数设置调整数据备份和Partition的策略。

4.支持查询的模板化，使查询和客户端代码解耦。

5.包括查询，管理在内的所有功能API化，易于运维。

6.插件丰富支持从其他数据源双向导入数据。

为什么选择CDH

我们曾经接触过的几个Hadoop 发行版 CDH，IDH（Intel），HAWQ（Pivotal），Hortonworks。

之前已经谈到，在选型里面我们比较关心的是DevOps，因为到目前为止我们还没有专职的运维，所以需要最大限度的利用已有工具提升运维的效率，在这一方面CDH是最强的，它的管理工具提供了安装，维护，监测，预警等一系列帮助运维的功能，节省了我们维护的很多时间。

IDH的特点是在HBase提供了LOB的类型，对二进制存储有帮助，使用特殊的存储类型避免发生频繁的Compacting。同时还优化了Hive计算的性能使相关数据尽量在同一region里。这几点和我们的需求毫无关系，而且Intel已经战略投资Cloudera，之后会把IDH的功能逐步移入CDH。

HAWQ，最为PivotalHD的基础，HAWQ最大的特点是在于它实际上是一个MPP架构的数据库，提供了基于HDFS之上的SQL支持。3个Data Node的情况下，上亿级别的包含group by聚合以及SQL子查询的复杂查询响应在10秒左右。所以HAWQ非常适合异步的近实时查询，但是我们也没有这个场景。不过用HAWQ可以把开发计算任务的成本几乎降到0是非常具有吸引力的。

Hortonworks，各方面和CDH很像，但是管理工具不如CDH强大。

四、业务增长阶段

随着BD的铺开，接入的客户越来越多，随着数据量的增长，我们发现了在产品成熟阶段设计上的许多问题，但是因为之前的架构原则是可持续迭代，所以问题都发生在局部的某些点上。

1.没有用到任何序列化技术，数据存储是简单粗暴的文本格式，这样会导致两个问题：

a)当数据种类增加时，计算任务会产生大量join，既增加计算的复杂度，又影响性能。

b)计算脚本和数据格式严重耦合，脚本任务取字段依赖于该字段在文本文件中的位置，增减字段需要评估所有job的影响。

2.JavaRDD durationsEventData = stEventData.map(new Function() {@Overridepublic Long call(String v1) throws Exception {

String[] temps = Configuration.parseRow(v1);//索引3和4 表示退出应用时间和启动应用时间if (StringUtils.isNotBlank(temps[3]) && StringUtils.isNotBlank(temps[4])) {return new BigDecimal(temps[4]).longValue() - new BigDecimal(temps[3]).longValue();} else {return ReportConstants.DEFAULT_SESSION_DURTION;}

}

});

3.Flume再往HDFS写入时，无法保证一个partition一个文件，往往会被打散成许多小文件，Spark的计算性能和Namenode的性能对小文件的数量严重敏感。

4.采用Spark Standalone，一个节点只能起一个executor，job 只能顺序一个个执行。

5.被CDH 托管的Flume 一台机器只能使用一个Flume 节点。

针对这些个问题，我们又逐步进行了一些优化：

1.录入HDFS的文件采用Arvo的格式，保证采集到的一条完整数据可以存储在同一个文件中，不用拆分，摒弃了join。另外基于Schema的数据，使得计算Job的语义更容易理解，可维护性更好。

2.在离线计算任务之前，我们先回跑一个脚本将同一个partition下产生Flume产生的文件给合并，大大提升计算性能。

3.从Spark standalone 切换到Spark Yarn。这样做的好处在于：

a)统一了我们的资源调度平台；

b)Yarn会自动优化数据的存储和计算发生在同一地域的问题（同一台服务器，同一台机柜）；

c)我们而言比起spark standalone 最大的好处在与每个节点起的executor的数目可配，不同的job可以并行执行。

4.Yarn本身作为一个资源调度平台的特性先不谈，对我们而言比起sparkstandalone 最大的好处在与每个节点起的executor的数目可配，不同的job可以并行执行。

五、大数据平台的DevOps

团队的特点：只有一个兼职的运维。生产环境的运维由这个兼职的运维，我们的架构师和我本人负责。所以不可能花太多人力在运维上，因此我们必须保证监控，调试，重新发布的自动化程度，这也是我们选择CDH的一个很重要的原因。

另外我们还单独开发一个监测和重启Spark任务的管理工具，而这个工具又是基于我们自主开发的离线任务框架来进行监测的。

这个工具包括一个web console, webconsole会通过JMX去控制job的基本操作，同时提供对已执行过的job的信息访问，这些数据存储在mysql中，通过Job Repository服务访问。

六、总结和心得

从我们的平台发展经历来看，在初创公司做大数据平台的选型，最重要的有两点：

1.产品目标导向，不同的阶段利用有限的资源采集不同的架构策略。

2.无论何种架构策略， DevOps始终是架构选型的一个重要考量，因为它直接影响到你如何评估和调整架构。

以上是今天分享的内容，谢谢大家。

七、Q&A

问：CDH您是用的企业版么, 哪一版呢? 功能有何限制吗？

张申竣：不是用企业版，express 版，刚刚说过，我们最看重的是CDH的管理工具，Cloudera Manager，这一块对我们来讲没有区别。

问：初创公司一般搭建大数据平台，典型的业务场景会有哪些？

张申竣：业务场景的话，大部分还是数据监测，各种指标的计算，人群分析等。

问：如果使用了spark on yarn ,还需要再单独部署spark集群吗？

张申竣：不需要spark master了，直接用yarn 管理 spark worker。是用yarn 去调度executor的执行。spark master和spark worker都是spark standalone的概念。用yarn的话，只需要条spark的任务就行了。

问：数据仓库用的什么? 好像还是基于mysql?

张申竣：数据仓库的选择范围太广了，您刚刚说的基于mysql的应该是infobright吧。但是infobright 免费版有大小限制，生产环境肯定还是用企业版。

问：现在很多企业的数据是放在RDMS、EXCEL中，做大数据，如何搭配架构组件比较好？

张申竣：是这样，首先要定义你处理数据的场景是OLTP还是OLAP。如果是OLAP的话，无非就是利用ETL工具将数据导入数据仓库中，然后在做处理。如果是OLTP，又是海量数据，又有复杂计算的话，比较麻烦。一种是想办法从业务和技术的角度把每次计算限定在一定的数据范围，再辅以缓存的技术。如果预算足，可以买类似于HANA的产品...

问：flume用的不多，不过被打散成几个文件不能解决吗？

张申竣：改源码可以的，但是对我们来讲没有必要，做merge比较简单有效。

问：对于长时间占用资源的sparkstreaming作业，您觉得更适合哪种作业部署方式？

张申竣：关于部署作业方式，我之前已经分享过 spark standalone 的最大问题在于同一时间只能跑一个job。

问：那您那边线上使用的数据存在什么地方呢?我们其实很多放到了mongo？

张申竣：我们有个SaaS平台存放各种用户的配置，是存在mysql里的。mongo 也适合存放各种meta data，但是如果业务模型复杂就不合适了。