英伟达推出下一代 GPU 架构：Hopper

时间：2022-04-10 14:15:01

关键字：英伟达 AI 人工智能

手机看文章

扫描二维码
随时随地手机看文章

[导读]Nvidia 推出了其下一代 GPU 架构——名为 Hopper，以及使用 Hopper 架构的新旗舰 GPU H100。也许令人惊讶的是，英伟达并没有选择走英特尔和 AMD 为其庞大的 GPU 青睐的时尚小芯片路线。虽然 H100 是第一款使用 HBM3 的 GPU，但它的计算芯片是单片的，814mm 2中的 800 亿个晶体管基于台积电的 4N 工艺构建。内存和计算通过台积电的 CoWoS 2.5D 封装进行封装。

Nvidia 推出了其下一代 GPU 架构——名为 Hopper，以及使用 Hopper 架构的新旗舰 GPU H100。也许令人惊讶的是，英伟达并没有选择走英特尔和 AMD 为其庞大的 GPU 青睐的时尚小芯片路线。虽然 H100 是第一款使用 HBM3 的 GPU，但它的计算芯片是单片的，814mm ²中的 800 亿个晶体管基于台积电的 4N 工艺构建。内存和计算通过台积电的 CoWoS 2.5D 封装进行封装。

以美国计算机科学先驱 Grace Hopper 命名的 Nvidia Hopper H100 将取代 Ampere A100，成为该公司用于人工智能和科学工作负载的旗舰 GPU。它将提供 3 到 6 倍的 A100 原始性能（FP8 性能的 4 PFLOPS，或 FP64 的 60 TFLOPS）。作为第一款采用 HBM3 技术的 GPU，其显存带宽达到了惊人的 3 TB/s，同时也是第一款支持 PCIe Gen5 的 GPU。该芯片具有近 5 TB/s 的外部连接速度。综上所述，20 个 H100 GPU 可以维持相当于当今全球互联网流量的全部。

新的 Nvidia Hopper H100 GPU – Nvidia 用于数据中心 AI 和科学工作负载的新旗舰 GPU

变压器引擎

Hopper 架构为 AI 处理和科学工作负载提供了一些技巧。

第一个是新的变压器引擎。Transformer 网络已经是当今自然语言处理的事实上的标准，在许多其他人工智能应用中显示出前景，包括蛋白质折叠，甚至在计算机视觉中。如今，它们为许多对话式 AI 应用程序提供支持。变压器网络的问题在于它们非常庞大——数十亿或数万亿个参数——这使得它们的训练计算成本极高。今天训练一个体面大小的变压器可能需要几个月的时间，这取决于你可以使用的计算能力。

Nvidia 为其 Hopper 张量核心发明了一种新的低精度格式 FP8。新的 Hopper 张量引擎可以应用混合的 FP16 和 FP8 格式，以在适当的情况下加速 Transformer 训练。挑战在于知道何时切换到较低精度以加快吞吐量，同时保持最终结果的准确性。Nvidia 提出了可以在训练期间动态执行此操作的策略。

将张量引擎与 Hopper 带来的其他改进相结合，结果是训练变压器网络的时间减少了 9 倍——在 Nvidia 的示例中，对于 3950 亿参数的混合，从使用 A100 的 7 天到使用 H100 的 20 小时专家网络。对于拥有 5300 亿个参数的 Megatron-530B，H100 的性能比 A100 高出 30 倍。

是时候为 H100 与 A100 训练混合专家变压器网络了（来源：Nvidia）

另一个巧妙的技巧是添加新指令来加速动态编程。动态编程是一种流行的科学算法使用的技术，包括 Floyd-Warshall（用于路线优化）和 Smith-Waterman（用于 DNA 序列比对）等等。一般来说，动态规划意味着算法被分解成更容易解决的更小的子问题。存储子问题的答案以供重复使用，以避免重新计算它们。

Hopper 的 DPX 指令是为此类操作量身定制的。到目前为止，这些工作负载主要在 CPU 和 FPGA 上运行。使用 H100，Floyd-Warshall 的运行速度可以比 CPU 快 40 倍。

下一代 MIG

H100 还具有第二代多实例 GPU (mig) 技术。Mig 允许将大型数据中心 GPU 有效地分解为多个较小的 GPU。这些微型实例可用于在同一芯片上同时运行多个工作负载。下一代 mig 在云环境中跨每个 GPU 实例提供安全的多租户配置，以便可以在不同用户或云租户之间安全地分配计算能力。

在 H100 的又一个首创中，Nvidia 声称该芯片是第一款具有机密计算能力的 GPU。这个想法是保护敏感或私人数据，即使它正在使用（因此被解密）。当今的机密计算方案是基于 CPU 的，因此不适用于大规模的 AI 或高性能计算 (HPC)。

英伟达的机密计算方案使用硬件和软件，通过机密虚拟机创建可信的执行环境。CPU 和 GPU 之间以及 GPU 之间的数据传输以全 PCI 线速进行加密和解密。H100 还具有硬件防火墙，可保护其内存和计算引擎中的工作负载，因此除了拥有密钥的受信任执行环境的所有者之外，没有人可以看到数据或代码。

H100 还率先使用了 Nvidia 的第四代 NVLink 通信技术。当扩展到多个 GPU 时，GPU 之间的通信通常是一个瓶颈。新的 NVLink 交换机可以创建多达 256 个 H100 GPU 的网络，比以前大 32 倍，带宽比 Quantum InfiniBand 技术高 11 倍。

超级芯片和超级计算机

英伟达还推出了几款“超级芯片”。Grace CPU 超级芯片是一个带有两个Grace CPU裸片的模块；该组合是一个具有 1 TB/s 内存带宽的 144 ARM 核单插槽 CPU 庞然大物，用于超大规模数据中心 AI 和科学计算。这是市场上当前数据中心 CPU 之上的一类。该模块消耗500W。

还有 Grace Hopper 超级芯片：一个 Grace CPU 和一个 Hopper GPU。

Nvidia 的“超级芯片”结合了两个 Grace CPU 或一个 Grace CPU 和一个 Hopper GPU（来源：Nvidia）

这里的支持技术是一种全新的内存一致性芯片到芯片接口 NVLink-C2C，它可以在裸片之间实现 900 GB/s 的链接。它可用于 PCB、MCM、Interposer 或晶圆级。

在他的 GTC 主题演讲中，Nvidia 首席执行官 Jensen Huang 提到 NVLink-C2C 将提供给希望实施连接到 Nvidia 平台的定制芯片的其他客户和合作伙伴。该公司单独表示，它将支持英特尔、AMD、Arm 和其他公司支持的 UCIe 小芯片到小芯片标准，但没有说明如何或何时支持。（UCIe 是一个开发中的开放平台，用于支持现成的小芯片生态系统）。

Grace CPU 超级芯片和 Grace Hopper 超级芯片都将在明年上半年出货。

当然会有基于 H100 的扩展系统，包括 DGX-H100（8 个 H100 芯片，0.5 PFLOPS 的 FP64 计算）和新的 DGX-Superpod，它是 32 个 DGX-H100 节点，可实现 1 ExaFLOPS 的 AI 性能（ FP8)。

作为基于 A100 的 AI 超级计算机 Selene 的姐妹，Nvidia 将构建一个名为 Eos 的新超级计算机，包括 18 个 DGX-Superpod。这个 18-ExaFLOPS 的野兽将拥有 4600 个 H100 GPU、360 个 NVlink 交换机和 500 个 Quantum InfiniBand 交换机。它将被英伟达的人工智能研究团队使用。

Eos 预计将在今年晚些时候上线，Nvidia 预计它将成为当时排名第一的 AI 超级计算机。