草庐IT

吞吐量

全部标签

【ICDE 2022】稀疏模型训练框架HybridBackend,单位成本下训练吞吐提升至5倍

近年来,随着稀疏模型对算力日益增长的需求,CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。 为了解决这一问题,阿里云机器学习PAI平台和阿里妈妈智能引擎训练引擎团队合作开发了稀疏模型高性能同步训练框架HybridBackend,使得在同成本下GPU集群训练吞吐较CPU集群提升至5倍,大幅降低调试成本,同时HybridBackend相关论文《PICASSO:UnleashingthePotentialofGPU-centricTrainingforWide-and-deepRecommenderSystems》也被ICDE22'所收录。Hy

【ICDE 2022】稀疏模型训练框架HybridBackend,单位成本下训练吞吐提升至5倍

近年来,随着稀疏模型对算力日益增长的需求,CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。 为了解决这一问题,阿里云机器学习PAI平台和阿里妈妈智能引擎训练引擎团队合作开发了稀疏模型高性能同步训练框架HybridBackend,使得在同成本下GPU集群训练吞吐较CPU集群提升至5倍,大幅降低调试成本,同时HybridBackend相关论文《PICASSO:UnleashingthePotentialofGPU-centricTrainingforWide-and-deepRecommenderSystems》也被ICDE22'所收录。Hy