随着业务的快速增长,Airbnb 正经历着一场对数据使用模式的根本性转变。早期 Airbnb 对数据的使用主要集中在离线数据分析和使用上。 近几年来,越来越多的具有强烈数据依赖特征的在线应用开始逐步上线。这些应用所依赖的数据也逐步从离线批处理向实时的流数据转移。在这样的大背景下,Airbnb 数据基础架构(Data Infrastructure)团队自主开发了基于 Kafka,Spark 和 HBase 的通用数据提取(derivation),聚集(aggregation)和存储(storage)平台——AirTrain。本演讲将从机器学习应用和非机器学习应用两个不同的角度对 Airtrain 的架构进行系统介绍,并且着重讨论一些在开发过程中的需求和设计思路。
浏览4586次
浏览11464次
浏览2966次
浏览1364次
浏览794次
浏览1607次
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈