解密英伟达Tesla P100、GP100、DRIVE PX2平台

时间：2020-08-26 09:24:01

关键字：人工智能汽车电子英伟达

手机看文章

扫描二维码
随时随地手机看文章

[导读] 　　在今年4月初开幕的图形处理器技术大会上，NVIDIA展示了针对VR虚拟现实和深度学习应用的最新技术和产品。NVIDIA联合创始人兼CEO黄仁勋在反复重申“一个全新的计算模型&rd

　　在今年4月初开幕的图形处理器技术大会上，NVIDIA展示了针对VR虚拟现实和深度学习应用的最新技术和产品。NVIDIA联合创始人兼CEO黄仁勋在反复重申“一个全新的计算模型”这样的字眼。他指出，“消费市场需要的计算机可再也不是那种马马虎虎就能打发的一般产品。大家都愿意享受超级计算速率带来的快感，特别是基于GPU加速带来的计算体验”。

　　当然，超级计算时代的到来并非只是想想就能实现的，基于这样的目标，NVIDIA在今年的GTC大会上推出了包括GPU芯片Tesla P100（基于全新Pascal平台架构上打造）、DRIVE PX2（用于自动驾驶汽车的开发平台）和用于深度学习研究的超级计算机DGX-1（使用Tesla P100芯片建造，运算速度可达170万亿次）在内的一系列新技术和新产品。

　　基于NVIDIA全新计算平台Pascal打造的Tesla P100 GPU芯片集成了NV Link总线，16GB HBM2显存，内建3584个CUDA，224个纹理单元，16GB HBM2显存，带宽可达到720GB/s，拥有基于16nm FinFET工艺打造的最大GPU核心。

　　△NVIDIA Tesla P100图形处理器芯片

　　此外，Tesla P100芯片也是继2014年发布，基于Kepler架构平台打造的Tesla K80之后，Tesla系列GPU产品的首次重大升级。

　　不过既然这是一款针对深度学习打造的GPU芯片，那么这里还必须要提一下Tesla P100芯片使用的NVIDIA旗舰GP100核心。GP100的性能一公布，给车云菌的感觉就是NVIDIA这次回归了GK110大核心时代注重双精度运算的设计，而且比之前更加变态。它每组SM单元中有64个FP32单元，但有32个FP64单元，FP64与FP32比例是1：2。这样的设计意味着GP100的FP32 CUDA核心可以同时执行2个FP16半精度运算，因此FP16浮点性能高达21.6TFLOPS。

　　△NVIDIA GP100核心架构示意图

　　GPU并行运算的特性很适合深度学习。据车云菌了解，NVIDIA在Tesla P100之外还推出了基于GP100核心的DGX-1深度学习超级计算机，由8颗GP100核心及2颗16核Xeon E5处理器组成，深度计算性能达到了170TFLOPS，号称比250台X86服务器还要强大。

　　△NVIDIA 超级计算机DGX-1 售价高达$129000，真心不便宜

　　在过去的两年里，每次GTC大会的主题演讲环节，黄仁勋都会将话题的重点放在深度学习和神经网络研究上，并适时推出相关的新技术和新产品，而这些为NVIDIA之后进行人工智能的研究奠定了基础。今年也不例外。除了基于Pascal全新架构平台打造的Tesla P100芯片外，NVIDIA还发布了两款Maxwell计算平台下的全新GPU芯片—Tesla M40/M4，是为深度学习应用而特别打造的。