原创

随着人工智能模型的快速增长，急剧推动了超级计算机的需求

时间：2022-11-28 09:35:01

关键字：英伟达微软超级计算机

手机看文章

扫描二维码
随时随地手机看文章

[导读]11月16日消息，英伟达当地时间周三宣布与微软签署一项多年合作协议，共同开发人工智能超级计算机。英伟达表示，这款人工智能设备将是微软Azure先进超级计算基础设施和英伟达的网络和全栈人工智能软件的结果。

11月16日消息，英伟达当地时间周三宣布与微软签署一项多年合作协议，共同开发人工智能超级计算机。英伟达表示，这款人工智能设备将是微软Azure先进超级计算基础设施和英伟达的网络和全栈人工智能软件的结果。

根据声明，英伟达将使用Azure的可扩展虚拟机实例来研究和实现生成式人工智能的进展，两家公司将合作改进微软的DeepSpeed深度学习优化软件。

超级计算机(Super computer)，是指能够执行一般个人电脑无法处理的大量资料与高速运算的电脑。就超级计算机和普通计算机的组成而言，构成组件基本相同，但在性能和规模方面却有差异。超级计算机主要特点包含两个方面：极大的数据存储容量和极快速的数据处理速度，因此它可以在多种领域进行一些人们或者普通计算机无法进行的工作。

了解到，这台人工智能计算机将在微软的 Azure 云上运行，使用数以万计的图形处理单元(GPU)、英伟达最强大的 H100 及其 A100 芯片。Nvidia 拒绝透露这笔交易的价值，但业内人士表示，每颗 A100 芯片的价格约为 1 万至 1.2 万美元，而 H100 的价格则远高于此。

除了向微软出售芯片外，英伟达表示还将与这家软件和云计算巨头合作开发 AI 模型。英伟达还将成为微软 AI 云计算机的客户，并在上面开发 AI 应用，向客户提供服务。

诸如用于自然语言处理的人工智能模型的快速增长，急剧推动了对更快、更强大的计算基础设施的需求。

英伟达表示，Azure 将是第一个使用其 Quantum-2 InfiniBand 网络技术的公共云，其速度为每秒 400 吉比特，这种网络技术以高速连接服务器，这非常重要，因为繁重的人工智能计算工作需要成千上万的芯片在几台服务器上协同工作。

天，微软和英伟达宣布建立多年的合作关系，为 Azure 客户开发新型的 AI 人工智能云端超级计算机，由英伟达 GPU 技术驱动。

利用“数以万计”的英伟达 GPU 性能显卡(英伟达最强大的 H100 和 A100 芯片，消息人士称每款 A100 芯片价格约为 1 万-1.2 万美元，而 H100 芯片价格远高于此)、400Gb / s 的 Quantum-2 InfiniBand 网络以及英伟达新生的人工智能平台，两家公司旨在加快推出和开发由英伟达技术和微软云计算驱动的基于人工智能的工具和应用程序。这是英伟达首次与微软 Azure 合作，向公众提供其云端人工智能基础设施的全部堆栈。

随着英伟达的硬件影响力逐步扩大，微软 Azure 将在虚拟机实例中带来其独特的全球可扩展性，英伟达表示这将有助于加快各种人工智能工具的训练和部署。英伟达表示，像 Megatron Turing NLG 530B 这样的基础模型将在该计划下得到快速发展，其目标是开发用于构建代码、文本、数字图像、音频和视频的“无监管”自我学习算法。英伟达和微软还将在 Microsoft DeepSpeed 算法完善平台上进行合作，该平台旨在帮助人工智能实例更快速地进行自我学习。

微软负责云计算和人工智能的执行副总裁 Scott Guthrie 对这一合作关系表示欢迎，因为两家公司将合作探索自动化行业的下一个浪潮。“人工智能正在推动整个企业和工业计算的下一波自动化浪潮，使企业在应对经济不确定性时能够事半功倍。我们与英伟达的合作解锁了世界上最具扩展性的超级计算机平台，在微软 Azure 上为每个企业提供最先进的 AI 能力。”

IT之家获悉，近年来，微软对开发人工智能平台的兴趣一直在成倍增加。微软在其整个投资组合中都有内部团队在探索如何在几乎每个产品组中纳入人工智能自学算法。比如，GitHub 和 Visual Studio 中出现了 Copilot 编程编辑。还看到了人工智能如何增强和加快 Xbox 和 PC 游戏的开发，将密集的任务交给人工智能。当然，还看到了一堆令人毛骨悚然的人工智能生成的图像，这些图像虽然有趣，但也引起了盗版的争议问题，因为人工智能使用真实世界的艺术来训练自己。

Cerebras宣布，推出Andromeda，这是一款拥有1350万核心的AI超级计算机，部署于美国加利福尼亚州圣克拉拉的数据中心，现已用于商业和学术工作。其采用了16个Cerebras CS-2系统集群构建，并利用Cerebras MemoryX和SwarmX技术简化和协调跨系统的模型拆分，以16位半精度提供超过1 Exaflop的AI计算和120 Petaflops的密集计算。

Cerebras称，Andromeda基于AMD第三代EPYC服务器处理器，以及Cerebras的Wafer Scale Engine 2构建，是唯一一台仅依靠简单数据并行性在大型语言模型工作负载上展示近乎完美的线性扩展的AI超级计算机，在GPT类大型语言模型里几乎呈线性扩展，这效率是标准GPU集群所无法比拟的。

Wafer Scale Engine 2是世界上尺寸最大的单颗裸片，面积为462.25平方厘米，几乎等于一块12英寸晶圆。其拥有850000个AI内核，2.6万亿个晶体管，配备了40GB的SRAM，提供了20 PB/s缓存带宽和220 Pb/s互联带宽，采用台积电7nm工艺制造。这些芯片将分布在16个机架的124个服务器节点上，通过100 GbE网络连接，并由284个AMD第三代EPYC服务器处理器提供支持，均为64核心128线程规格，总有18176个核心。

Andromeda整个系统的功耗为500KW，比采用GPU加速的超级计算机的功耗要低得多。这样的设计并不是完美无缺，在这种大规模并行的超级计算机上扩展工作负载长期以来都是制约其发展的因素之一，某些情况下扩展很容易会崩溃，因此添加更多硬件会导致回报迅速减少。