新浪微博高级算法工程师吴磊分享了题为《基于Spark的大规模机器学习在微博的应用》演讲。他表示,微博目前在大规模机器学习技术方面面临的主要挑战是数据特征类别多、维度大、算法模型多样化、参数矩阵巨大导致大量内存和网络开销。因此,微博研发团队开发了基于Spark参数服务器,采用异步随机梯度下降算法,主要处理原则是将数据分块、分块数据拉取参数、计算分块数据梯度、将梯度更新到参数服务器。在过程中不断对参数服务器的Batch Size、PS server count、Sparse、Partitioning、Spark memory tuning等模块性能优化。在解决微博机器学习问题过程,他们开发了名为weiflow的统一计算框架。吴磊逐一解释了weiflow的实现过程,通过这一框架,微博团队业务开发效率、业务代码贡献、执行性能、模型性能等方面都得到了大幅提升。
浏览3028次
浏览2318次
浏览5241次
浏览1257次
浏览4912次
浏览6435次
2025-01-08 昆明
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
打开微信扫一扫,分享到朋友圈