当前位置:首页 > 厂商动态 > NVIDIA
[导读]基于先进的 NVIDIA 网络、NVIDIA 全栈 AI 软件和存储技术,可将集群中 Grace Blackwell 超级芯片的数量扩展至数万个,通过 NVIDIA NVLink可将多达 576 块 Blackwell GPU 连成一个整体,由NVIDIA 系统专家加速即时 AI 基础设施的部署

美国加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2024 年 3 月 18 日 —— NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD™。这台 AI 超级计算机可以用于处理万亿参数模型,能够保证超大规模生成式 AI 训练和推理工作负载的持续运行。

全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构,基于 NVIDIA DGX™ GB200 系统构建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超级计算性能和 240 TB 的快速显存,且可通过增加机架来扩展性能。

每个 DGX GB200 系统搭载 36 个 NVIDIA GB200 超级芯片,共包含 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU。这些超级芯片通过第五代 NVIDIA NVLink® 连接成一台超级计算机。与 NVIDIA H100 Tensor Core GPU 相比,GB200 超级芯片在大语言模型推理工作负载方面的性能提升了高达 30 倍。

NVIDIA 创始人兼首席执行官黄仁勋表示: “NVIDIA DGX AI 超级计算机是推进 AI 产业变革的工厂。新一代 DGX SuperPOD 集 NVIDIA 加速计算、网络和软件方面的最新进展于一体,能够帮助每一个企业、行业和国家完善并生成自己的 AI。”

Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200 系统构建而成,这些系统通过 NVIDIA Quantum InfiniBand 网络连接,可扩展到数万个 GB200 超级芯片。用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,从而获得海量共享显存空间,来赋能下一代 AI 模型。

面向生成式 AI 时代的全新机架级扩展的 DGX SuperPOD 架构

采用 DGX GB200 系统构建而成的全新 DGX SuperPOD 采用了统一的计算网络。除第五代 NVIDIA NVLink 网络外,还包括 NVIDIA BlueField®-3 DPU,并将支持同为今日发布的 NVIDIA Quantum-X800 InfiniBand 网络。这个架构可为计算平台中的每块 GPU 提供高达每秒 1800 GB 的带宽。

另外,第四代 NVIDIA 可扩展分层聚合和规约协议(SHARP)™技术可提供 14.4 teraflops 的网络计算能力,与上一代产品相比,新一代 DGX SuperPOD 架构的网络计算能力提高了 4 倍。

统包式架构搭配先进的软件,实现前所未有的正常运行时间

全新 DGX SuperPOD 是一台完整的数据中心级 AI 超级计算机,在与 NVIDIA 认证合作伙伴提供的高性能存储集成后,能够满足生成式 AI 工作负载的需求。每台超级计算机都在出厂前完成了搭建、布线和测试,从而大大加快了在用户数据中心的部署速度。

Grace Blackwell 架构的 DGX SuperPOD 具有智能预测管理功能,能够持续监控软硬件中的数千个数据点,通过预测并拦截导致停机和低效的根源以节省时间、能耗和计算成本。

即使没有系统管理员在场,该软件也能识别需要重点关注的领域并制定维护计划,灵活调整计算资源,通过自动保存和恢复作业来防止停机。

如果软件检测到需要更换组件,该集群将激活备用容量以确保工作能够及时完成。为任何必要的硬件更换做好安排,以免出现计划之外的停机。

NVIDIA DGX B200 系统推动各行各业 AI 超级计算发展

NVIDIA 还发布了一款统一用于 AI 模型训练、微调和推理的通用 AI 超级计算平台 NVIDIA DGX B200 系统。

采用风冷传统机架式设计的 DGX 已被全球各行各业数千家企业广泛采用,DGX B200 是 DGX 系列的第六代产品。采用 Blackwell 架构的全新 DGX B200 系统包含 8 个 NVIDIA B200 Tensor Core GPU 和 2 个第五代英特尔®至强®处理器。用户还可以使用 DGX B200 系统构建 DGX SuperPOD,打造能够帮助大型开发团队运行多种不同作业的 AI 卓越中心。

DGX B200 系统凭借全新 Blackwell 架构中的 FP4 精度特性,可提供高达 144 petaflops 的 AI 性能、1.4TB 海量的 GPU 显存和 64TB/s 的显存带宽,从而使得该系统的万亿参数模型实时推理速度比上一代产品提升了 15 倍。

DGX B200 系统包含带有 8 个 NVIDIA ConnectX™-7 网卡和 2 个 BlueField-3 DPU 的高性能网络,每个连接的带宽高达 400 Gb/s,可通过 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum™-X 以太网网络平台支持更高的 AI 性能。

软件和专家为扩大生产级 AI 的规模提供支持

所有 NVIDIA DGX 平台均包含用于企业级开发和部署的 NVIDIA AI Enterprise 软件。DGX 用户可以通过使用该软件平台中的预训练的 NVIDIA 基础模型、框架、工具套件和全新 NVIDIA NIM 微服务来加速他们的工作。

NVIDIA DGX 专家与部分获得 NVIDIA DGX 平台支持认证的合作伙伴将在每个部署环节为用户提供帮助,以便其迅速实现 AI 投产。在系统投入运行后,DGX 专家还将继续协助用户优化其 AI 管线和基础设施。

供应情况

NVIDIA 全球合作伙伴预计将在今年晚些时候提供基于 DGX GB200 和 DGX B200 系统构建而成的 NVIDIA DGX SuperPOD。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭