明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

时间：2018-11-21 15:10:13

关键字： AMD GPU 技术专访数据中心显卡

手机看文章

扫描二维码
随时随地手机看文章

[导读]在近日召开的AMD大中华区合作伙伴峰会上，AMD再次重点介绍了其全新的数据中心加速产品——Radeon Instinct MI60，并且介绍了其明年即将发布的7nm 数据中心CPU产品，代码“Rome”。

在近日召开的AMD大中华区合作伙伴峰会上，AMD全球副总裁、数据中心解决方案产品部总经理Scott Aylor展示了一个7nm数据中心的demo。在演示中可以看到全新的AMD 7nm GPU+CPU的平台在进行图像训练的时候，可以达到前代产品两倍的运算速度。采用最新的7nm工艺制程的全新GPU Radeon INSTINCT MI60的预计年内发布;而同样为7nm制程，代号为“Rome”的EPYC系列数据中心处理器则宣布将在明年正式发布。

明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

图：7nm数据中心demo展示

随着人工智能、物联网等应用场景的不断普及。海量的数据和大量的运算让数据中心市场变得愈发庞大，而AMD在这个时间节点有一个很好的机会：既有非常强大的GPU的技术储备，又抢占了7nm的工艺节点。那么AMD是如何发挥这一优势，进行数据中心市场布局的?我们或可从此次峰会一窥端倪。

真实训练样本数不够?MI60模拟的拿来凑

“7nm制程的Radeon Instinct MI60这个季度就可以发货，”AMD Radeon技术事业部、工程研发高级副总裁王启尚如是说到。这句承诺引起了当天在座诸多合作伙伴的一阵欢呼和掌声。此处不掰饬实际哪种工艺制程的孰优孰劣，但从数字上看，AMD确实胜了一筹。英特尔的10nmFPGA仍未量产，英伟达的GPU去年刚步入12nm的制程。Radeon Instinct MI60(下文简称MI60)将会是AMD全面抢占数据中心加速类产品市场份额的利器。据王启尚介绍，GPU在数据中心的主要应用场景为云游戏、虚拟桌面及工作站、机器学习和高性能计算。MI60是全球首款7nm制程的GPU，采用了高性能、灵活的Vega架构，拥有领先的内存和可拓展性，并且是业内唯一的硬件虚拟化GPU。

明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

图：两种工艺路线的性能对比

遵循摩尔定律的规律，7nm带来的性能提升颇多。全新的工艺制程提供了高达2倍的密度，一个芯片在331mm²的面积上可以容纳132亿个晶体管;相同功耗条件下提升超过25%的性能;相同频率下降低50%的功耗;具有更高的每瓦特性能。全新的Vega架构可以实现了高效能的内存系统，可以达到1 TB/s的带宽;基于第二代HBM存储，可以支持大体量数据中心的部署;MI60是业界首款支持PCIe4.0的GPU，拓宽了GPU相互之间通信的频宽达到了双向64GB/s。MI60还是第三代的硬件虚拟化GPU，用户可以轻松地将应用程序部署到云端;每个GPU可以驱动多个虚拟机，因此可以节约数据中心运营商的成本;反过来呢，一个虚拟机又可以支持多个GPU，在一些虚拟计算应用中也可以提高计算性能。

为了将生态系统做大，AMD还提供了完全开源的ROCm平台。这个平台是GPU与上层软件的接口，完全的开源可以让任何人都可以更容易实现GPU在机器学习方面的应用搭建。王启尚表示，要将ROCm拓展到数百万的Linux内核的用户。目前ROCm已经被开源社区所接纳。

明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

图：开源ROCm2.0平台

峰会现场展示了一个用MI60来进行神经网络训练的客户案例。这个案例来自highwai，他们遇到的问题是得不到足够多真实的驾驶数据来进行升级网络的训练。要知道谷歌目前积累的自动驾驶的里程数也才10000万英里，但是其实统计数据表示每50万英里才会出现一次车祸。因此要想实现靠谱的自动驾驶，首先真实训练样本数就差的很远。因此highwai采用了AMD的GPU来模拟一些驾驶数据。第一步GPU先为神经网络训练生成数据，第二步用模拟的数据去训练神经网络，第三步将模拟数据和正式数据交叉验证，第四步最终到真实世界中开始部署。这是一个非常典型的GPU加速的应用案例，在这类加速应用中GPU相比ASIC和FPGA有着明显的优势。

明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

图：highwai的自动驾驶训练案例

MI60相比前代产品MI25，有大约8.8倍的提升。按照广泛发布的数据中心路线图来看，新一代的产品也已经在规划中。王启尚表示，AMD的GPU在数据中心中有很大的机会，并且AMD已经做好了竞争的准备。

明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

图：AMD数据中心GPU路线图

代号“Rome”的7nm数据中心CPU明年发布

因为正在研发中，所以可以讲的不是太多。负责这部分介绍的Scott先生更多着墨于当前AMD的CPU在数据中心市场中的表现。他在演讲中提到，10年前数据中心都是物理实体化和本地部署;而现在呢，当然都是在云端进行部署，虚拟化技术和混合云等应用广泛。AMD EPYC(霄龙)可以满足现代数据中心在核心密度、内存带宽、I/O性能和安全性方面的需求。

明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

图：单路EPYC服务器提供了更好的浮点运算性能

传统的双路服务器需要的成本更高，功耗也更多。而单路EPYC服务器在成本上则低了很多，并且性能上也毫不妥协。单路EPYC服务器可以将TCO降低45%，其它譬如管理费用、硬件费用、许可费用和空间费用上都有明显的节省。浮点性能是云服务器的重要指标，单路EPYC服务器的浮点性能也有了提升，反应在具体应用上：可以使WRF气象建模的计算速度提高44%;ANSYS流体力学的计算速度提高25%;NAMD分子动力学的计算速度提高41%。

明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

图：AMD数据中心CPU路线图

最受关注的当然还是代号为"Rome"的7nm数据中心CPU，Scott先生承诺其将于2019年发布，一个CPU中最多可以搭载64个Zen 2核心，提供更高的每时钟周期指令数和领先的计算、I/O以及内存带宽。官方信息表示，每插槽的计算性能将提升至2倍左右，每插槽的浮点性能将提升至4倍左右。“Rome”的插槽将于现有的“Naples”平台完全兼容，所以可以帮助客户更轻松地实现升级，并且向前兼容“Milan”平台。正如本文初所提及的，Scott先生展示了一个全新7nm GPU+CPU的数据中心与前代产品在进行图像识别训练的demo，笔者现场可见，全新7nm数据中心的计算速度确实比前代产品快了许多。距Rome正式发布还有不短的时间，说不定AMD还会带来更高的性能提升。

明年就能双剑合璧！AMD展示7nm GPU+CPU数据中心

图：AMD全球副总裁、大中华区总裁潘晓明

本次峰会上，AMD还重点介绍了其CPU在笔记本市场方面的业绩提升，以及GPU在游戏方面的赫赫战果。明年将是AMD成立50周年，笔者最期待的周年礼自然是Rome处理器的面世!而AMD全球副总裁、大中华区总裁潘晓明在大会上也自信地表示：“在下一个五十年，当我们迈入到沉浸式计算的时代，AMD做为技术的驱动者，责无旁待!让我们‘携手同芯’，坚信‘未来可期’。”7nm GPU+CPU的数据中心到底有多赞?让我们拭目以待其再次如7而至。