跬智科技首席技术官李扬在《Apache Kylin的新Streaming OLAP实现》主题演讲中分享了Apache Kylin V1.5、V1.6两个版本对Streaming的诸多尝试。 流数据如何分段,时间蹉的方式行不通 ,V1.5版本中,采用模糊的二分查找,使用时间近似寻找;同时针对小碎片,按一定的时间间隔,自动合并成大的Segment。V1.5最大成就是,通过流式构建,解决了数据延时问题,同时也也存在一些缺陷,如构建不能自动伸缩、近似二分查找会丢失数据、构建任务难以监控、错误恢复困难、整体运维成本高等。 基于V1.5版本的经验与教训,V1.6版本重构了Streaming,将Kafka作为标准的数据源,解决了V1.5版本的伸缩性问题。针对数据遗漏,V1.6版本改为按offset切分,彼此间不能有重合,Segment之间允许有时间值重合,确保了数据一致性和查询准确性。此外,还进行了其他改进,如自动寻找开始和结束的offset;支持嵌套式JSON消息,支持自定义时间格式;允许多Segment并行构建/合并等。
浏览3075次
浏览4110次
浏览6219次
浏览7401次
浏览11235次
浏览4325次
2025-01-08 昆明
2025-04-19 南京
2024-12-27 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈