七牛云高级大数据工程师赵宏尧分享了题为《基于Spark的流式处理引擎在Pandora大数据产品中的应用》的演讲。据悉,Pandora目前的数据处理规模已达到了每分钟实时写入的数据量达到数百GB, 每分钟实时写入的数据条目达到数十亿 。赵宏尧介绍了Pandora核心组件——计算平台架构,包括实时任务和离线任务调度管理平台、资源管理平台(YARN,Mesos,自研容器云平台)及Spark组件。他重点讲解了流处理技术服务化需要考虑的两个问题 :用户的使用接口, 技术细节的屏蔽 。用户接口他建议schema,具有数据流健壮、存储计算高效、数据类型丰富等特点。在技术细节处理上,Spark Streaming在生产上的常见问题有运行状态管理和监控、数据丢失、数据消费延迟、聚合操作处理等,赵宏尧给出了对应的解决方案。
浏览3028次
浏览2318次
浏览5241次
浏览1257次
浏览4912次
浏览6435次
2025-01-08 昆明
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
打开微信扫一扫,分享到朋友圈