百度基础架构部分布式计算架构师黄鑫分享了主题为《百度大数据离 线计算平台发展历程》的精彩演讲。他重点介绍了百度统一分布式计算API-Bigflow,不仅采用了分布式可嵌套数据集(NDD)模型,相比于业界同类系统抽象程度更高,而且对接了多种计算引擎,包括批量引擎、迭代引擎、流式引擎,方便用户切换执行引擎。此外,由于完成了许多优化策略,使得Bigflow可以高效运行。目前通过在线上大规模验证,Bigflow的可嵌套数据集模型确实可以起到统一多平台的目标。此外,黄鑫还介绍了百度离线计算引擎DCE,DCE基于分布式计算,支持各种实际业务需求所定制的交互方式,比如各类数据的优化,比老的Shuffle效率高很多。
浏览3075次
浏览4110次
浏览6219次
浏览7401次
浏览11235次
浏览4325次
2025-01-08 昆明
2025-04-19 南京
2024-12-27 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈