香港浸会大学计算机科学系副教授褚晓文第二个演讲,他带来了题为《基于GPU的性能建模与分布式深度学习框架评价》的演讲,褚晓文表示深度学习框架已广泛部署在计算能力强大但价格昂贵的GPU服务器和集群上,这是因为目前GPU的算力可以满足深度学习对于计算的越来越高的要求,而计算是深度学习的关键。但GPU虽然计算能力很强,但内存的延迟和带宽瓶颈大大拖慢了计算的效率。因此在设计计算框架时,通常采用多线程、内存Hierarchy、HBM等方式。褚晓文介绍了一个分析性能的Roofline Model,并介绍了如何通过算法提升计算框架性能的方法,然后,褚晓文介绍了如何选择深度学习的硬件和软件平台以及如何优化这些深度学习的框架,并比较了目前最先进的几个分布式深度学习框架,即Caffe、CNTK,MXNet、Torch和TensorFlow在不同的硬件平台,包括单GPU,多GPU和GPU集群的表现。然后介绍了三个流行的卷积神经算法:即矩阵计算、基于傅立叶变换的算法和Winograd-base Convolution。最后,褚晓文介绍了他们的深度学习计算框架性能评价研究。并认为,在GPU的性能飞速发展的情况下,IO的优化、通讯时间的缩短对提升计算框架的性能非常关键。
浏览5138次
浏览4110次
浏览6219次
浏览7401次
浏览11235次
浏览4325次
2025-01-08 昆明
2025-04-19 南京
2024-12-27 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈