新突破!超级计算机上深度学习训练时间缩减到数分钟
扫描二维码
随时随地手机看文章
微软和瑞士国家计算中心(CSCS)的科学家们取得了重大突破,将超级计算机上深度学习的训练时间缩减到数分钟。训练时间的缩短,再加上超级计算机技术的引入,或能够解决现在在图像、视频和语音识别,自然语言处理等方面问题的瓶颈。考虑到深度学习能够提供的复杂性,这样的研究还可能扩展到其它多个领域。微软AI研究员黄学东认为,这项研究甚至可能推动深度学习的界限,因为它代表了训练及评估深度学习算法的大突破。
深度学习模型通常需要数周的时间来训练。
但现在,微软和瑞士国家计算中心(CSCS)的科学家们取得了重大突破,将超级计算机上深度学习的训练时间缩减到数分钟。
训练时间的缩短,再加上超级计算机技术的引入,或能够解决现在在图像、视频和语音识别,自然语言处理等方面问题的瓶颈。考虑到深度学习能够提供的复杂性,这样的研究还可能扩展到其它多个领域。
该团队将微软认知工具包(一个训练深度学习算法的开源代码包)扩展到瑞士实验室的Cray XC50超级计算机上的超过1000个Nvidia Tesla P100 GPU加速器,这台超级计算机代号Piz Daint。
根据该团队研究员的解释,深度学习在算法方面和传统运行在大规模并行超级计算机上的应用是类似的,通过使用Cray XC Aries网络以及高性能的MPI库来优化节点间通信,每个训练任务可以使用更多的计算资源,进而缩短训练单个模型所需的时间。
瑞士超级计算中心主任Thomas Schulthess表示,这项突破意味着研究人员能够利用现有的超级计算机解决那些以前被认为不可行的深度学习问题,以前一般认为那些问题需要几个月的时间来训练模型。
微软AI研究工程师黄学东认为,这项研究甚至可能推动深度学习的界限,因为它代表了训练及评估深度学习算法的大突破。这一突破的结果将允许研究人员运行更大型、更复杂的深度学习工作负载。