英伟达中国区CTO 赵立威：GPU运算引领人工智能

时间：2020-06-26 23:09:02

关键字： 2018iot AI GPU nvdia

手机看文章

扫描二维码
随时随地手机看文章

[导读] （本站原创，作者是章鹰，电子发烧友执行副主编）提到英伟达，大多数人会以为，它是一家卖显卡的硬件公司，是“游戏芯片供应商”、“全球最大的图片芯片制造商”。现在英伟达是一家AI公司，深度

（本站原创，作者是章鹰，电子发烧友执行副主编）

提到英伟达，大多数人会以为，它是一家卖显卡的硬件公司，是“游戏芯片供应商”、“全球最大的图片芯片制造商”。现在英伟达是一家AI公司，深度学习正在创造收入增长，据官方发布的数据，截至2018年7月29日，英伟达第二季收入达到31.2亿美元，较去年同期增长40%。公司在AI、游戏、专业视觉和自动驾驶平台均取得增长。首席执行官黄仁勋表示，各行各业计算需求与传统计算极限之间逐渐扩大的差距，推动了我们的增长，我们首创的GPU加速计算模型，满足了开发人员的需求，并帮助他们实现飞跃。

9月21日，在杭州云栖大会的英伟达专场会议上，英伟达中国区CTO赵立威先生，给在场的工程师带来了最前沿的《GPU运算引领人工智能》的演讲。

英伟达中国区CTO赵立威先生

赵立威先生的PPT，展示了1980年到2020年，GPU算力的急速增长曲线。GPU Computing和人工智能在过去的几个月变化非常快，以NVIDIA最新的DGX-2人工智能电脑2PFlops的算力能力，已经相当于2009年全球排名第一的超算中心算力，并且从GPU领域来看算力能力每年提升1.1倍。笔者了解到，云计算正进入算力时代。云计算、大数据、物联网、人工智能等信息技术的快速发展与传统产业的数字化转型，推动数据量呈现几何级增长，带来了大量可处理数据存量和知识。

赵立威先生引用2017年图灵奖获得者David A. Patterson在接受采访时的话：“传统的摩尔定律将失效，进入后摩尔定律时代，传统以CPU为计算单元的硬件架构很难跟上不同类型行业应用场景对算力的巨大需求。这些场景包括精细化医疗、天气预报仿真、新材料研发，特别是人工智能。”

赵立威表示，改变英伟达命运的CUDA（用于图形处理单元GPU上的通用计算的并行计算平台和编程模型。利用CUDA，开发人员可以通过利用GPU的功能，大大加快计算应用）已经获得市场高度认可。截至到目前，CUDA开发人员增长10倍，超过百万，CUDA下载量提高5倍，达到180万。　AI是NVIDIA CUDA GPU的“杀手级应用”，AI取得惊人进步。

Tesla V100采用台积电12nm工艺制程，815平方毫米面积，共210亿个晶体管，15Tflops的单精度浮点性能，7.5Tflops的双精度浮点性能，拥有5120个CUDA，16MB缓存，采用３２GB HBM2显存，显存带宽为900GB/S，高速显存。这款GPU卡为深度学习设计。 “不管你是在做深度神经网络的训练，还是在一个推理过程，整体的运行效率将得到极大的提升。”赵立威表示。

在深度学习的模型不断演进时，对算力的需求似乎没有止境。赵立威表示，仅在Training面，算力的需求提升了30万倍，是不是够了呢？NVIDIA推出了史上最强，单一节点的GPU服务器，当计算能力足够强，数据访问能力会否受到阻碍？怎样做到所有计算能力得到保证，数据访问也不会延迟？

英伟达DGX 2在2018年3月发布，基于Tesla V100的升级和全新的NVSwitch架构，英伟达将DGX 2的性能较前一代产品有大幅度提升。DGX 2应用了最新的NVSwitch架构，通过12个NVSwitch支持16块全新的Tesla V100共享同一的内存空间，总计512 GB HBM2存储，能实现每秒高达2千万次的浮点运算。此外，基于NVSwitch架构的应用，16块GPU可以实现2.4TB/秒的数据传输能力。和六个月前发布的DGX-1相比，DGX-2的处理能力是前者的10倍。

赵立威表示，全球最大的GPU，DGX 2的售价，目前官方给出的价格为39.9万美元，9月份，这款产品就可以于客户见面。即使算力提高，数据访问也不会受到影响。

GPU运算能力还在高速发展，“我们要达到同样的算力，如果使用传统的双路CPU服务器，需要300台，预算需要300万美金，功耗达到180ｋW，采用DGX－2的超算中心，只需要一台，八分之一的预算，功耗只有10kw。”

最后，赵立威先生介绍了NVDIA　AI平台和主要产品线。它总结说， NVDIA　GPU卡主要面对专业图形计算、专业图形加速，云计算、自动驾驶等领域的生态合作伙伴，使用GPU去制作去设计云上、自动驾驶和各行业细分场景的产品和服务。比如作为NVDIA在中国的重要合作伙伴，阿里巴巴正在将GPU大规模的应用于诸多业务的AI推理应用中，借助GPU带来的强大算力为AI应用赋能。