英伟达推出下一代 GPU 架构:Hopper
扫描二维码
随时随地手机看文章
Nvidia 推出了其下一代 GPU 架构——名为 Hopper,以及使用 Hopper 架构的新旗舰 GPU H100。也许令人惊讶的是,英伟达并没有选择走英特尔和 AMD 为其庞大的 GPU 青睐的时尚小芯片路线。虽然 H100 是第一款使用 HBM3 的 GPU,但它的计算芯片是单片的,814mm 2中的 800 亿个晶体管基于台积电的 4N 工艺构建。内存和计算通过台积电的 CoWoS 2.5D 封装进行封装。
以美国计算机科学先驱 Grace Hopper 命名的 Nvidia Hopper H100 将取代 Ampere A100,成为该公司用于人工智能和科学工作负载的旗舰 GPU。它将提供 3 到 6 倍的 A100 原始性能(FP8 性能的 4 PFLOPS,或 FP64 的 60 TFLOPS)。作为第一款采用 HBM3 技术的 GPU,其显存带宽达到了惊人的 3 TB/s,同时也是第一款支持 PCIe Gen5 的 GPU。该芯片具有近 5 TB/s 的外部连接速度。综上所述,20 个 H100 GPU 可以维持相当于当今全球互联网流量的全部。
新的 Nvidia Hopper H100 GPU – Nvidia 用于数据中心 AI 和科学工作负载的新旗舰 GPU
变压器引擎
Hopper 架构为 AI 处理和科学工作负载提供了一些技巧。
第一个是新的变压器引擎。Transformer 网络已经是当今自然语言处理的事实上的标准,在许多其他人工智能应用中显示出前景,包括蛋白质折叠,甚至在计算机视觉中。如今,它们为许多对话式 AI 应用程序提供支持。变压器网络的问题在于它们非常庞大——数十亿或数万亿个参数——这使得它们的训练计算成本极高。今天训练一个体面大小的变压器可能需要几个月的时间,这取决于你可以使用的计算能力。
Nvidia 为其 Hopper 张量核心发明了一种新的低精度格式 FP8。新的 Hopper 张量引擎可以应用混合的 FP16 和 FP8 格式,以在适当的情况下加速 Transformer 训练。挑战在于知道何时切换到较低精度以加快吞吐量,同时保持最终结果的准确性。Nvidia 提出了可以在训练期间动态执行此操作的策略。
将张量引擎与 Hopper 带来的其他改进相结合,结果是训练变压器网络的时间减少了 9 倍——在 Nvidia 的示例中,对于 3950 亿参数的混合,从使用 A100 的 7 天到使用 H100 的 20 小时专家网络。对于拥有 5300 亿个参数的 Megatron-530B,H100 的性能比 A100 高出 30 倍。
是时候为 H100 与 A100 训练混合专家变压器网络了(来源:Nvidia)
另一个巧妙的技巧是添加新指令来加速动态编程。动态编程是一种流行的科学算法使用的技术,包括 Floyd-Warshall(用于路线优化)和 Smith-Waterman(用于 DNA 序列比对)等等。一般来说,动态规划意味着算法被分解成更容易解决的更小的子问题。存储子问题的答案以供重复使用,以避免重新计算它们。
Hopper 的 DPX 指令是为此类操作量身定制的。到目前为止,这些工作负载主要在 CPU 和 FPGA 上运行。使用 H100,Floyd-Warshall 的运行速度可以比 CPU 快 40 倍。
下一代 MIG
H100 还具有第二代多实例 GPU (mig) 技术。Mig 允许将大型数据中心 GPU 有效地分解为多个较小的 GPU。这些微型实例可用于在同一芯片上同时运行多个工作负载。下一代 mig 在云环境中跨每个 GPU 实例提供安全的多租户配置,以便可以在不同用户或云租户之间安全地分配计算能力。
在 H100 的又一个首创中,Nvidia 声称该芯片是第一款具有机密计算能力的 GPU。这个想法是保护敏感或私人数据,即使它正在使用(因此被解密)。当今的机密计算方案是基于 CPU 的,因此不适用于大规模的 AI 或高性能计算 (HPC)。
英伟达的机密计算方案使用硬件和软件,通过机密虚拟机创建可信的执行环境。CPU 和 GPU 之间以及 GPU 之间的数据传输以全 PCI 线速进行加密和解密。H100 还具有硬件防火墙,可保护其内存和计算引擎中的工作负载,因此除了拥有密钥的受信任执行环境的所有者之外,没有人可以看到数据或代码。
H100 还率先使用了 Nvidia 的第四代 NVLink 通信技术。当扩展到多个 GPU 时,GPU 之间的通信通常是一个瓶颈。新的 NVLink 交换机可以创建多达 256 个 H100 GPU 的网络,比以前大 32 倍,带宽比 Quantum InfiniBand 技术高 11 倍。
超级芯片和超级计算机
英伟达还推出了几款“超级芯片”。Grace CPU 超级芯片是一个带有两个Grace CPU裸片的模块;该组合是一个具有 1 TB/s 内存带宽的 144 ARM 核单插槽 CPU 庞然大物,用于超大规模数据中心 AI 和科学计算。这是市场上当前数据中心 CPU 之上的一类。该模块消耗500W。
还有 Grace Hopper 超级芯片:一个 Grace CPU 和一个 Hopper GPU。
Nvidia 的“超级芯片”结合了两个 Grace CPU 或一个 Grace CPU 和一个 Hopper GPU(来源:Nvidia)
这里的支持技术是一种全新的内存一致性芯片到芯片接口 NVLink-C2C,它可以在裸片之间实现 900 GB/s 的链接。它可用于 PCB、MCM、Interposer 或晶圆级。
在他的 GTC 主题演讲中,Nvidia 首席执行官 Jensen Huang 提到 NVLink-C2C 将提供给希望实施连接到 Nvidia 平台的定制芯片的其他客户和合作伙伴。该公司单独表示,它将支持英特尔、AMD、Arm 和其他公司支持的 UCIe 小芯片到小芯片标准,但没有说明如何或何时支持。(UCIe 是一个开发中的开放平台,用于支持现成的小芯片生态系统)。
Grace CPU 超级芯片和 Grace Hopper 超级芯片都将在明年上半年出货。
当然会有基于 H100 的扩展系统,包括 DGX-H100(8 个 H100 芯片,0.5 PFLOPS 的 FP64 计算)和新的 DGX-Superpod,它是 32 个 DGX-H100 节点,可实现 1 ExaFLOPS 的 AI 性能( FP8)。
作为基于 A100 的 AI 超级计算机 Selene 的姐妹,Nvidia 将构建一个名为 Eos 的新超级计算机,包括 18 个 DGX-Superpod。这个 18-ExaFLOPS 的野兽将拥有 4600 个 H100 GPU、360 个 NVlink 交换机和 500 个 Quantum InfiniBand 交换机。它将被英伟达的人工智能研究团队使用。
Eos 预计将在今年晚些时候上线,Nvidia 预计它将成为当时排名第一的 AI 超级计算机。