Arm v9:十年来首个新架构加倍关注人工智能和安全性,介绍第一部分
扫描二维码
随时随地手机看文章
Arm 推出了重大架构修订版 Arm v9,它为安全、机密计算和人工智能提供了额外的功能,并提高了整体性能。Arm 表示,预计 v9 将在接下来的两代移动和基础设施中实现 30% 以上的性能提升。迄今为止,最常见于 GPU 的 AI 功能将在公司的 GPU、CPU 和 NPU 中提供。
Arm 之前的架构 v8 是十年前推出的,Arm 预计 v9 将在未来 10 年主导从物联网到超级计算应用的计算芯片。
“即使我仍然对我们的技术变得如此普遍感到惊讶,”Arm 首席执行官西蒙·塞格斯 (Simon Segars) 说。“一年后,我们的合作伙伴将累计出货2000亿颗芯片。把它放在上下文中,这个数字的一半,第一个 1000 亿需要 26 年才能进入市场。如果我们的预测是正确的,那么第二个 1000 亿芯片将在短短五年内出货。我们的目标是让最广泛的开发人员能够在 Arm 上快速编写和运行。”
Arm 强调,v9 将是一个长达十年的项目,v9.1、v9.2 等预计将从现在开始以每年的节奏推出。首次发布时宣布的主要功能主要涉及两个领域:Arm 的响应全球对无处不在的专业计算的需求,并努力提高每个应用程序的安全性。
“Arm v9 是一个滚动计划,对我们将在未来几年部署的架构进行了重大改进,提高了数字信号处理和机器学习等广泛应用领域的计算能力,并提高了我们的安全性和稳健性。系统,”高级副总裁、首席架构师兼 Arm 研究员 Richard Grisenthwaite 说。
CPU 性能
Arm 研究员兼技术副总裁 Peter Greenhalgh 描述了为未来计算机开发处理器 IP 的挑战,包括移动、汽车和基础设施市场中日益复杂、不断发展的异构工作负载。先进的工艺节点可以弥补一些不足,但成本高昂并且会延长生产时间。
“要求新芯片必须为人们今天关心的传统计算工作负载以及人们明天关心的未来工作负载提供出色的投资回报率,”他说。“鉴于在绝对成本和市场窗口影响方面流片失败的高成本,还需要使用经过验证的高质量 IP。在 Arm v9 的十年中,我们将提供能够实现市场所需性能和质量的技术。”
转向 Arm v9 预计将在接下来的两代移动和基础设施中实现 30% 以上的性能提升。Arm 正在研究最大化频率、带宽、缓存大小和减少内存延迟的技术,以最大限度地发挥 CPU 的性能。
Greenhalgh 补充说,虽然关于专用加速器的优点存在一些争论,但视频处理器和 AI/ML 加速器“将继续存在”。然而,当今商业工作负载的需求意味着加速器必须是可编程的——这包括从库和 C 编译到虚拟化的所有内容,以便它们可以在云环境中轻松使用,一直到调试和性能分析。加上对安全性的要求,你的加速器设计突然变得更像 CPU,他说。
“从这个角度来看,我们的信念是,我们应该继续扩展 CPU 架构,以便我们的 CPU 可以加速更多的工作负载,并以可编程、受保护、普及和经过验证的方式来加速,”Greenhalgh 说。“如今,无法忽视移动市场中一些 AI 和 DSP 工作负载的碎片化程度,以及它们如何从合并到 CPU 环境中受益。这就是我们想要推动我们的架构和计算设计的地方。”
AI/ML 扩展
Arm v9 将引入许多专用于 AI 的新功能,包括在其整个 CPU、GPU 和 NPU 产品组合中增加对 AI 的硬件支持。这是基于 Arm 的信念,即所有处理器都需要处理 AI 工作负载,从超级计算到云再到端点设备。
“我们相信,专门构建的系统设计将成为所有形式计算创新的关键,”格里森斯韦特说。“不同的计算问题需要不同的计算组件组合。许多物联网设备需要解释他们的世界,而 M profile 内核与 Ethos-U55 microNPU 的组合是完美的。在汽车系统中,合作伙伴将越来越多地将许多大大小小的 CPU 与 GPU、NPU 和他们自己的 IP 相结合,为这些自主系统生成正确的计算解决方案。”
Arm Fellow、公司机器学习小组副总裁兼总经理 Jem Davies 描述了这些不同的计算组件组合如何在 VR 耳机(大型 NPU 和 GPU 以及小型 NPU 和 CPU)、智能手机(大型 CPU 和 GPU 以及小型CPU 和 NPU)和物联网设备(小 CPU 和 NPU)。
“对于这三个用例,理想情况下,您应该使用三种不同类型和大小的处理器构建三个不同的片上系统,”戴维斯说。“平衡错误,你有一个芯片太慢或成本太高,因为你投资了你不需要的处理,或者一个使用错误的处理器来处理工作负载并杀死你的电池或绿色能源等级......在选择时人工智能的硬件,我们绝对看到一种尺寸并不适合所有人。适合一个合作伙伴、一种设备或一个用例的选择根本不适用于其他地方。”
Arm v8 引入了对 AI 处理中流行的 FP16 和 BFloat 算法的支持,以及称为可扩展向量扩展 (SVE) 的功能。SVE 是与富士通等公司合作开发的 Fugaku 超级计算机处理器;它增加了矢量处理功能以提高 AI 和 DSP 性能。
“[SVE] 以可扩展的方式设计,因此用于超级计算机的概念可以应用于更广泛的产品,”Grisenthwaite 说。“我们增加了创建 SVE2 的功能,即增强的可扩展矢量扩展,可以很好地适用于 5G 系统和许多其他用例,例如虚拟和增强现实,以及 CPU 内的机器学习。在接下来的几年里,我们将通过在 CPU 中执行基于矩阵的计算方面的显着增强来进一步扩展这一点。”