七牛云高级大数据工程师赵宏尧分享了题为《基于Spark的流式处理引擎在Pandora大数据产品中的应用》的演讲。据悉,Pandora目前的数据处理规模已达到了每分钟实时写入的数据量达到数百GB, 每分钟实时写入的数据条目达到数十亿 。赵宏尧介绍了Pandora核心组件——计算平台架构,包括实时任务和离线任务调度管理平台、资源管理平台(YARN,Mesos,自研容器云平台)及Spark组件。他重点讲解了流处理技术服务化需要考虑的两个问题 :用户的使用接口, 技术细节的屏蔽 。用户接口他建议schema,具有数据流健壮、存储计算高效、数据类型丰富等特点。在技术细节处理上,Spark Streaming在生产上的常见问题有运行状态管理和监控、数据丢失、数据消费延迟、聚合操作处理等,赵宏尧给出了对应的解决方案。
浏览3095次
浏览2440次
浏览5456次
浏览1375次
浏览4973次
浏览6541次
2025-06-20 深圳
2025-11-21 上海
2025-05-23 上海
2025-10-21 重庆
打开微信扫一扫,分享到朋友圈
Text