流数据集在当前的互联网应用中越来越常见。相应的,我们对于数据流水线的实时性、数据完全性、以及处理成本有着不同的要求。 Apache Beam对于流处理与批处理定义了一个全新的统一编程框架。在这个编程框架下,数据流水线的开发独立于执行引擎。它解决了流水线执行引擎的可移植性问题,用户既可以在流处理与批处理之间切换,也可以在不同的执行引擎之间切换。 现在,已经和Apache Beam集成的流水线引擎有:Apache Apex, Apache Flink, Apache Spark, Google Cloud Dataflow。
浏览5572次
浏览3218次
浏览5325次
浏览7577次
浏览3260次
浏览7829次
2025-10-17 上海
2025-09-20 杭州
2025-09-12 杭州
2025-09-04 广州
打开微信扫一扫,分享到朋友圈
Text