随着业务的快速增长,Airbnb 正经历着一场对数据使用模式的根本性转变。早期 Airbnb 对数据的使用主要集中在离线数据分析和使用上。 近几年来,越来越多的具有强烈数据依赖特征的在线应用开始逐步上线。这些应用所依赖的数据也逐步从离线批处理向实时的流数据转移。在这样的大背景下,Airbnb 数据基础架构(Data Infrastructure)团队自主开发了基于 Kafka,Spark 和 HBase 的通用数据提取(derivation),聚集(aggregation)和存储(storage)平台——AirTrain。本演讲将从机器学习应用和非机器学习应用两个不同的角度对 Airtrain 的架构进行系统介绍,并且着重讨论一些在开发过程中的需求和设计思路。
浏览4379次
浏览11228次
浏览2840次
浏览1219次
浏览672次
浏览1389次
2024-08-23 上海
2024-07-20 上海
2024-06-28 上海
2024-06-28 北京
打开微信扫一扫,分享到朋友圈