TensorFlow 的开源大幅降低了深度学习的门槛并极大推动了深度学习在众多公司的落地。但是,建设深度学习平台更多还需要关注多租户管理、资源隔离、作业管理等。除此之外,在大数据时代训练数据大多存储在以 HDFS 为代表的分布式储存系统中。所以,直接存取 HDFS 也是必不可少的功能。基于以上考虑,我们设计了 TensorFlow on Yarn,实现了深度学习与大数据平台的整合。归纳而言,TensorFlow on Yarn 主要有以下功能和特点: 作为一种新定义的计算类型,借助 Yarn 实现资源隔离和作业的管理; 增强了 Yarn 对 GPU 资源的管理和调度,能做到以 GPU 卡作为资源申请单元; 支持训练数据直接从 HDFS 读取,训练模型保存到 HDFS; 兼容原生 TensorFlow 的代码,已有的代码稍作修改即可迁移到 Yarn; 性能和训练效果跟原生 TensorFlow 保持一致。 除了 TensorFlow on Yarn 外,会向大家一并介绍下我们更早设计的 SparkFlow(TenrsorFlow 与 Spark 的结合),以及整合更多计算框架到 Yarn 的思考。
浏览4375次
浏览11224次
浏览2836次
浏览1215次
浏览668次
浏览1384次
2024-08-23 上海
2024-07-20 上海
2024-06-28 上海
2024-04-25 上海
打开微信扫一扫,分享到朋友圈