学术报告:让大规模分布式深度学习变得更方便

报告时间:2021年9月28日 14:10-15:40

报告地点:机械楼一层多功能厅

报告摘要

近些年,诸如GPT-3等大规模预训练模型备受关注,训练此类模型,一方面需要借助大规模GPU集群,另一方面对分布式深度学习框架的效率和易用性也提出了严峻挑战。特别是,训练这样的超大模型需要模型并行和流水并行等现有通用深度学习框架(如TensorFlow和PyTorch)官方版本尚不支持的功能。因此,开发者不得不转而寻求各种定制化方案的帮助,如基于MXNet和PyTorch开发的InsightFace、NVIDIA为广告推荐场景专门开发的HugeCTR和为大规模预训练模型开发的Megatron-LM等。这些定制方案通常都是针对某个特定需求的,无法方便地应用到其他类似的需求上。那么,从开发者的需求出发,是否有可能让通用深度学习框架灵活而高效地支持大规模预训练模型?本报告将介绍新一代深度学习框架OneFlow的核心设计思想和技术方案。基于“一致性视角”的概念,OneFlow可以帮助开发者像单机编程一样方便地开发分布式深度学习训练程序。

报告嘉宾

袁进辉,一流科技OneFlow创始人。2008年毕业于清华大学计算机系,获工学博士学位(优秀博士学位论文奖),师从张钹院士。原微软亚洲研究院主管研究员(院长特别奖获得者),之江实验室天枢开源开放平台架构师,北京智源人工智能研究院大模型技术委员会委员。2017年创立一流科技,致力于打造新一代深度学习框架OneFlow。