黄仁勋的“厨房演讲”,熬制的却是英伟达 GPU 史上最大性能飞跃
扫描二维码
随时随地手机看文章
第一次,在自家的厨房里,英伟达创始人兼 CEO 黄仁勋开始了 GTC 2020 的演讲。
「未来十年,数据中心的规模计算将成为标准。」说完,老黄从自家的烤箱里拿出了全新的安培(Ampere)架构 GPU,7nm 工艺,540 亿晶体管,20 倍 AI 算力的提升。
每次带来全新架构,都必然是一次「性能跃迁」。只是这次它不是开启了一个全新的大门,而是作为最后一块砖,补齐了英伟达在数据科学与 AI 应用上的完整版图。
去年的 GTC2019,黄教主罕见的没有放出「重磅核弹」传言中的下一代 7nm 产品以及新架构也并没有出现,而更加强调「生态」优势与「落地」的英伟达却仿佛要从侧翼用「软件生态」构筑起一道护城河。
在高性能计算之下,收购「绝配」的高性能网络公司 Mellanox 和 Cumulus Networks,借助这两个公司组成的新业务部门,老黄开始逐渐加深其在数据中心领域的强劲增长。
今天,依靠这次带来的新的 Ampere 图形架构,在 AI 计算、数据中心等领域上让英伟达获得了全面的「能力升级」。
黄仁勋的「厨房演讲」| 英伟达官方
英伟达之前的成长很大程度上是依靠其游戏 GPU 处理器。如今,英伟达逐渐开始在众多人工智能 AI 应用程序方面显现巨大的增长潜力。英伟达在 AI 领域的处理器,可以帮助提高 AI 语意理解能力,优化搜索引擎建议,甚至赋能公共云以及物流,零售和仓储等垂直行业。
在疫情期间,这些行业和应用成为「必需品」。巨大的推动力也为英伟达的收入和收益带来了高于平均水平的增长。更重要的是,这也让英伟达摆脱了短期加密货币的动荡影响,转身跨入了一个新的增长时代。
全面投产的新「核弹基地」老黄今天宣布,基于 NVIDIA Ampere 架构的首个 GPU,即 NVIDIA A100,正在全面生产并向全球客户发货。
再说 NVIDIA A100 是「核弹」并不严谨,它更像是一个「核弹基地」。A100 利用了英伟达安培架构的设计突破,在其 8 代 GPU 中提供英伟达迄今为止最大的性能飞跃,将性能提高到其前辈的 20 倍。
NVIDIA A100 GPU | 英伟达官方
同时,它是一个端到端机器学习加速器——从数据分析到训练再到推理。第一次在一个平台上来统一人工智能训练和推理。A100 是一个通用的工作负载加速器,它也是为数据分析、科学计算和云图形设计的。
「云计算和人工智能的强大趋势正在推动数据中心设计的结构性转变」黄仁勋说,「过去纯 CPU 服务器的海洋,正在被 GPU 主导的加速计算基础架构所取代。」
黄仁勋说,买得越多,省得越多。(Buy more GPUs , the more money you save.)| 官方 Keynote
而贯彻「买更多,省更多」的宗旨,NVIDIA A100 将同时提高吞吐量并降低数据中心的成本。
A100 内置了新的弹性计算技术,可「灵活拆分」计算能力。多实例 GPU 能力允许每个 A100 GPU 被分割成多达七个独立的实例来推断任务,而第三代 NVIDIA NVLink interconnect 技术允许多个 A100 GPU 作为一个巨型 GPU 运行,以完成更大的训练任务。
第一批利用 NVIDIA A100 GPU 的是微软,它将利用 NVIDIA A100 的来训练图灵自然语言生成,这个世界上最大的语言模型。疫情期间,这也让外卖巨头 DoorDash 获得了更强的能力,「这有助于减少模型训练时间,加快机器学习的开发过程。」DoorDash 的机器学习工程师 Gary Ren 说。早期采用者还包括国家实验室和一些世界领先的高等教育和研究机构。
NVIDIA A100 很快就会进入云计算。包括 BAT 在内的云业务,字节跳动、谷歌云、亚马逊云 (AWS) 等几乎主流大厂都将在产品中加入 A100 GPU。
当然关于 NVIDIA A100 GPU,英伟达认为这是一项「技术设计突破」,英伟达自己总结了五个关键创新推动:
● NVIDIA 全新安培 Ampere 架构——A100 的核心是 NVIDIA Ampere GPU 架构,它包含超过 540 亿个晶体管,使其成为世界上最大的 7 纳米处理器。
●使用第三代 Tensor Core AI 核心,现在更加灵活、更快、更容易使用。他们的扩展功能包括新的人工智能 TF32,它允许高达 20 倍的 FP32 精度的人工智能性能,没有任何代码更改。此外现在支持 FP64,为 HPC 应用提供了比上一代多 2.5 倍的计算能力。
●多实例 GPU (Multi-instance GPU)——MIG,一个新的技术特性,可以将一个 A100 GPU 分割成多达 7 个单独的 GPU,这样它就可以为不同大小的任务提供不同程度的计算,提供最优的利用率和最大的投资回报。
●第三代 NVIDIA NVLink——使 GPU 之间的高速连接加倍,从而在服务器上提供高效的性能扩展。
●结构稀疏性——这种新的效率技术利用了人工智能数学固有的稀疏性,使性能提高了一倍。
NVIDIA A100 | 英伟达官方
总之,这些新特性使 NVIDIA A100 成为多样化、高要求工作负载的理想选择,包括人工智能培训和推理以及科学模拟、会话人工智能、推荐系统、基因组学、高性能数据分析、地震建模和财务预测。
今天英伟达也开始与开源社区合作,将端到端 GPU 加速引入 Apache Spark 3.0,这是一个用于大数据处理的分析引擎,全世界有 50 多万数据科学家使用它。NVIDIA 的企业计算主管 Manuvir Das 说:「数据分析是当今企业和研究人员面临的最大的高性能计算挑战。」「从 ETL 到训练再到推理,整个 Spark 3.0 的 GPU 加速提供了最终连接大数据潜力和人工智能能力所需的性能和规模。」Adobe 是首批在 Databricks 上运行 Spark 3.0 预览版的公司之一。在最初的测试中,它的性能提高了 7 倍,节省了 90% 的成本。它使用 GPU 加速数据分析,用于 Adobe 体验云中的产品开发,并支持支持数字业务的功能。
从「新玩家」到宝马工厂,汽车行业的全面「渗透」NVIDIA DRIVE AGX 正为汽车行业初创公司提供 AI 驱动力。
在 GTC Digital 期间,电动汽车和自动驾驶汽车初创公司小马智行(Pony.ai)、Canoo 和法拉第未来(Faraday Future)纷纷宣布借助 NVIDIA DRIVE AGX 计算平台开发汽车。这个高性能、高能效的平台可实现跨级别的自动驾驶,帮助企业进行可靠的软件定义车辆开发。
这几家公司全都加入了一个广泛的全球生态系统。该系统中的汽车制造商、一级供应商、卡车制造商、传感器供应商、Robotaxi 公司和软件初创公司均在 NVIDIA DRIVE 上进行开发。
自动驾驶技术公司小马智行正在 NVIDIA DRIVE AGX Pegasus 上开发其新一代 Robotaxi 车队。自 2018 年以来,该公司一直在加利福尼亚州和中国测试自动驾驶车辆的叫车服务。今年 4 月,小马智行开始在加利福尼亚州尔湾市提供自动派送服务,帮助因新冠疫情影响而在该地区隔离的人。
借助 DRIVE AGX Pegasus 自动驾驶平台来满足 Robotaxi 上市所需的海量计算需求。Pegasus 计算平台可实现每秒 320 万亿次(TOPS)深度学习运算,内置两个 NVIDIA Xavier 处理器和两块 NVIDIA Turing Tensor Core GPU。
电动汽车初创公司 Canoo 推出了一款时尚的电动汽车,这款汽车的风格类似于大众经典车型 Microbus 的未来风格。这款专用于共享出行服务的汽车将于 2021 年下半年投入生产。
Canoo 汽车将配备 NVIDIA DRIVE AGX Xavier 驱动的 AI 辅助驾驶功能。该计算平台具有 30 TOPS 物体探测和传感器融合性能,能够运行构建十字路口警报、盲点探测和行人探测功能的先进算法,以及自适应巡航控制和车道偏离预防等便捷功能。
软件定义的 DRIVE AGX Xavier 还能引入更多市面上推出的高级功能,例如自动车道变换、交通信号识别和规避转向等。
小鹏最新推出的 P7 的 XPILOT3.0 就是使用了英伟达 DRIVETM AGX Xavier 平台。目前,小鹏还宣布将在下一代生产车型中利用 DRIVE 平台,小鹏自动驾驶副总裁吴新宙博士说,「我们非常高兴能在下一代电动汽车生产模式上扩大与 NIVIDA 的合作。」
就连许久未发声的新造车鼻祖法拉第未来(Faraday Future)也宣布将在其旗舰豪华 FF 91 电动车上部署 NVIDIA DRIVE AGX Xavier 平台,开发新一代 FF91。根据 FF 的新计划,FF 91 将在成功完成股权融资约 9 个月后开始交付。最新发布的 FF 81 EV 还将配备 DRIVE AGX Xavier,以及未来的型号和下一代核心技术。
宝马集团也在今天宣布,公司已经选择了新的 NVIDIA Isaac 机器人平台来加强其汽车工厂——利用建立在先进的人工智能计算和可视化技术上的物流机器人。
「利用人工智能和机器人技术上的突破,创造出可高度定制、准时化、顺序化的下一代生产模式。」老黄说。
宝马集团负责物流的高级副总裁 Jürgen Maidl 说:「最终,大量可能的配置成为了宝马集团在三个基本领域的挑战——计算、物流规划和数据分析,」宝马集团 (BMW Group) 的供应链需要从 4500 多个供应商站点向工厂输送数百万件零部件,涉及 23 万个独特的零部件编号。目前,宝马销售的车辆平均有 100 种不同的选择,导致 99% 的客户订单彼此之间存在独特的差异。这给工厂物流带来了巨大的挑战。
合作的核心是实现一个基于英伟达技术的端到端系统——从培训和测试到部署——使用一种软件架构开发的机器人,运行在英伟达的开放 Isaac 机器人平台上。宝马集团的目标是提高物流工厂的流程,以生产定制配置的汽车更迅速和更有效。一旦开发完成,该系统将部署到宝马集团的全球工厂。
英伟达的增长源泉黄仁勋一直说,人工智能是未来增长的巨大潜在驱动力。
第一个驱动因素是「推理」的概念。推理,也称为推理引擎,将逻辑规则应用于知识库以形成新信息。例如,可以利用客户购买历史、兴趣以及他们的位置等事实来确定针对性的营销计划。
而人工智能增长的第二个推动力是实现突破的模型算法能力。英伟达的产品具有低延迟性能,而 AI 应用程序例如语言识别/理解程序和互联网搜索推荐系统,这些系统现在正在使用深度学习。
第三个驱动力是公共云的增长。公共云的增长来自许多在云中开发 AI 软件的 AI 初创公司。黄仁勋(Jensen Huang)表示,人工智能初创企业数量达数千家。由于公共云可以支持规模较小且刚刚起步的公司,因此易于使用。
人工智能的第四增长动力是垂直行业。这包括物流,零售和仓储。沃尔玛(WMT),美国邮政(USPS)和美国运通(AXP)等公司/组织拥有大量需要分析/预测分析的数据。
同时,这一领域还需要边缘 AI 计算。这样能保证进行实时操作,例如包括机器人、自动驾驶汽车的某些操作,数据创建以及需要在几毫秒内发生的决策。
我们可能会更容易的从 AI 中看到现实世界的解决方案:增强的购物体验(更好的库存系统/更智能的布局/更智能的结帐系统),增强的汽车自动驾驶视觉计算性能/解决方案,实时交通监控以确保更安全的道路,基因组计算,5G 加速等等。
这些各种行业中 AI 应用程序的增长空间可能会给英伟达带来一个可以实现数年的持续增长的领域。Grand View Research 估计,到 2025 年,全球 AI 市场将以每年约 46%的速度增长。
我们发现,英伟达不在是一个单纯的 GPU 硬件公司,它正在成长为一个「生态型」的基础设施,跑在一个高速增长的时代下。