支持10亿模型参数的边缘AI应用,Arm推出基于Armv9架构的边缘AI计算平台——Cortex-A320 CPU+Ethos-U85 NPU
扫描二维码
随时随地手机看文章
边缘设备的AI应用中,Cortex-M CPU+Ethos-U NPU是许多端侧AI解决方案的基石。然而,随着人工智能技术的迅速发展,特别是大型语言模型参数规模的不断扩大,即便是最高性能的Cortex-M85和Ethos-U85的AI系统,也逐渐暴露出其局限性。尽管Cortex-M85提供低功耗和高效率的微控制器性能,配合Ethos-U85神经处理单元能够满足部分轻量级AI任务的需求,但它在面对超过更大规模参数的大型模型时显得力不从心。受限于其架构,Cortex-M系统缺乏对高级语言的充分支持、无法运行复杂的Linux系统管理,并且内存(如System SRAM和System Flash)的容量和灵活性不足以应对日益增长的语言模型规模。这些限制使得端点AI难以适应当前对高性能计算和实时处理的需求,尤其是在智能驾驶、复杂语音识别和大规模数据分析等前沿应用场景中。因此,升级到更强大的Cortex-A基础系统成为必然选择。而此前要直接从Cortex-M85直接升级到Cortex-A520时,跨步是否过大?对于这些物联网的AI+应用,能效仍是尤为关键的考量。因此Arm最新推出了基于Armv9.2架构的最小CPU——Arm Cortex-A320。旨在通过更好的能效表现,以及来自Armv9架构的安全和AI特性支持,来更好地帮助客户实现边缘AI的应用。基于Cortex-A320+Ethos-U85的边缘AI解决方案通过更高的计算能力、支持Linux系统以及扩展的存储和模型规模,为边缘设备带来了突破性的可能性。
推理才是 AI 释放价值的关键——从云端下沉到端侧,AI将无处不在
从技术发展的角度来看,推理(Inference)正日益成为人工智能(AI)释放核心价值的关键所在。随着AI技术从云端逐步下沉到端侧,其应用场景正在以前所未有的速度扩展,逐步实现“无处不在”的愿景。过去,AI的强大能力主要依赖于云端的高算力和大数据处理,但如今,随着端侧设备算力的提升和算法的优化,推理过程正逐步迁移到终端。这不仅降低了延迟、提升了效率,还让AI能够在更多离线场景中发挥作用。从智能家居到自动驾驶,从移动设备到工业物联网,AI的端侧推理能力正在重塑各行各业。可以预见,随着这一趋势的深入,AI将真正融入生活的每一个角落,成为推动技术进步和社会变革的 omnipresent(无处不在的)力量。
“Arm 推出的适用于 Armv8-M 架构的 Cortex-M 向量扩展技术——Helium,以及Arm Ethos-U AI 加速器已在物联网领域广泛应用,将 AI 和机器学习 (ML) 计算能力带到了数十亿台边缘设备上。”Arm物联网事业部业务拓展副总裁 马健(Chloe Ma)分享到,“但创新者永远不会停滞不前,所以今天 Arm 发布以全新基于 Armv9 架构的超高能效 CPU —— Arm Cortex-A320 以及对 Transformer 网络具有原生支持的 Ethos-U85 AI 加速器为核心的边缘 AI 计算平台。”
在边缘AI领域,Arm最新推出的技术组合展现了令人瞩目的协同设计理念。据Chloe介绍,这并非简单地将CPU与AI加速器堆叠在一起,而是通过深度整合实现了Cortex-A320与Ethos-U85之间的相辅相成,为开发者带来了更高效的AI工作负载处理能力。我们注意到,Cortex-A320通过提供更高的内存容量和带宽,为Ethos-U85上的大模型推理注入强劲动力,使其执行效率显著提升。而对于那些开发者不倾向于在Ethos-U85上运行的AI任务,Cortex-A320则提供了灵活的回退选项,其内置的Neon和SVE2引擎能够在CPU侧高效应对多样化需求。这种设计让智能物联网和消费电子生态系统得以在恰当的时间与场景中,精准分配最适合的工作负载。
边缘AI的新基石——Armv9 赋能Cortex-A320,实现信息安全与 AI 的双重突破
全新 Cortex-A320的微架构来自于Cortex-A520基础,在面积和功耗方向上进行了优化取舍,最终在性能上的表现令人眼前一亮。相比前代超高效 CPU Cortex-A35,其机器学习 (ML) 计算能力提升高达 10 倍;在 GEMM 性能方面,Cortex-A320 相较目前Cortex-M85提高了八倍。这种性能提升不仅归功于 Armv9 架构在 AI 处理上的增强,还源于 Cortex-A320 内存访问性能的大幅提高和频率的增加。
这一飞跃使其能够轻松应对日益复杂的边缘 AI 任务。同时,得益于高效的分支预测器和预取器设计,其标量计算性能提升了 30%(SPECINT2K6基准测试),为通用计算提供了更强支撑。更值得一提的是能效:相较高效的 Armv9.2 CPU Cortex-A520,Cortex-A320 的功耗降低 50%,在低能耗场景中展现出无可比拟的优势。此外,支持最高四核共享集群的设计,让它能够根据需求灵活扩展,适配从智能家居到工业物联网的多样化应用场景。
Cortex-A320 的核心竞争力离不开 Armv9 架构的加持。在安全性方面,随着边缘设备承载的软件和数据价值日益提升,Cortex-A320 引入了一系列强化的特性。Secure EL2增强了 TrustZone 的隔离性,为软件容器提供了更安全的运行环境;PACBTI(指针验证/分支目标识别)有效缓解跳转编程中的安全隐患;而内存标记扩展 (MTE) 通过标记机制显著降低了内存漏洞被利用的风险。这些特性共同构建了一个更坚固的安全防线,为物联网设备保驾护航。
与此同时,AI 计算能力的提升同样令人瞩目。Cortex-A320 充分利用 Armv9 的Neon 和 SVE2技术,支持 BFloat16 等新数据类型,并新增矩阵乘法指令,大幅优化了神经网络的推理与训练效率。这不仅提升了计算精度和能效,也让 Cortex-A320 成为边缘 AI 任务的理想平台,能够高效处理复杂的实时工作负载。
边缘 AI 的成功不仅依赖硬件性能,更需要灵活的工作负载分配能力。Cortex-A320 在这方面表现出色:它既能与 AI 加速器协同运行连续图像检测等高能效任务,也能通过 CPU 处理单张图像检测等场景。为进一步释放 CPU 的 AI 潜力,Arm 引入了 Kleidi 软件库。KleidiAI 针对 AI 框架开发者优化,支持 Neon 和 SVE2,已集成于 Llama.cpp、ExecuTorch 和 LiteRT 等主流框架,加速 Meta Llama 3、Phi-3 等大模型的运行;而 KleidiCV 则专注于机器视觉任务。这种软硬结合的策略显著提升了 Cortex-A320 的应用弹性。
生态支持同样是其亮点。Cortex-A320 可无缝运行 FreeRTOS、Zephyr 等实时操作系统 (RTOS),以及 Linux、Android 等功能丰富的系统,开箱即用支持 Linux,并可轻松移植安卓。这种多操作系统兼容性为开发者提供了广阔的选择空间。此外,作为 Armv9 家族一员,其软件兼容性覆盖从高性能 Cortex-X925 到低功耗 Cortex-A320 的全系列处理器,开源社区和编译器的支持进一步缩短了开发周期,降低了总体拥有成本 (TCO)。
对于现有物联网设备用户,Cortex-A320 提供了一条平滑的升级路径。无论是从 Cortex-A35 还是全球出货量最大的 Cortex-A53 迁移,这款处理器都能带来 Armv9 的安全性、性能和生态优势。对于 Linux 开发者,快速部署功能丰富的操作系统将大幅节省时间与成本;而对于从MCU升级而来的RTOS 用户,如运行 Zephyr 的场景,Cortex-A320 为 MCU 工作负载提供了面向未来的灵活升级方案,增强计算能力和内存支持,助力低能耗设备集成 AI 功能。
首个基于Armv9架构的边缘AI平台——Cortex-A320+Ethos-U85
此次的新品发布,Arm称是首个基于Armv9架构的边缘AI计算平台发布。而这个边缘AI计算平台,就是由CPU+NPU组成。CPU即上文介绍的新品Cortex-A320,而NPU仍是Ethos-U85。
Arm 的 Ethos-U 系列是一款专为边缘 AI 和嵌入式设备设计的高效微神经处理单元(microNPU),其目标是将强大的机器学习(ML)推理能力带入资源受限的物联网(IoT)和低功耗场景。自 2020 年初推出以来,Ethos-U 系列凭借其紧凑的设计和优异的能效比,成为 Arm 在边缘计算领域的重要布局。ARM Ethos-U系列处理器在神经网络性能提升方面的强大能力,能够助力开发者解锁神经网络的全部潜能。从Ethos-U55到Ethos-U65再到Ethos-U85,MAC单元数持续提升的同时,还增加了对于最新的AI模型架构Transformer的支持。通过对矩阵乘法(Matrix Multiplication)和权重(Weights)的优化,Ethos-U85处理器目前可以更高效地执行这些复杂的AI任务。
Ethos-U85需由一个主处理器(可以是 Cortex-M 或 Cortex-A)进行驱动,一些具有明确定义的 AI 工作负载的边缘 AI 用例可以通过将神经网络处理卸载到专用 NPU 上,从而释放主处理器的计算密集型任务。
主处理器与 Ethos-U 间可以有多种配置方式。Ethos-U 可由像 Cortex-M55 等启用 Helium 的 Cortex-M 处理器驱动使用。而对于以Cortex-A为主处理核心的SoC而言,可以通过一个Cortex-M与Ethos-U搭配组成一个ML岛的方式,来与主处理器核心进行AI负载卸载。而更直接的方式是,Cortex-A 处理器也可以直接驱动 Ethos-U NPU。这种配置无需专门的 Cortex-M 作为“驱动”处理器。Ethos-U85 的 Linux 驱动程序可在 Cortex-A 主控制器上运行。
此次最新的Cortex-A320就具备直接驱动Ethos-U85的能力,这也非常有助于原先基于Cortex-M85+Ethos-U85的方案进行升级,从而获得对于更大参数模型的支持。据Chloe分享,从 Cortex-M 处理器 + AI 加速器的组合升级到当前的组合(Cortex-A320+Ethos-U85)后将会给客户获得很多优势。首先是在模型方面,之前只是对 CNN 或语音模型等非常小的传统模型能够支持,而现在的方案支持最新的语言模型,无论是大模型还是小模型。其次,Cortex-M升级到Cortex-A之后能够很好支持Linux或Android这类更为复杂的操作系统,这些操作系统在内存管理方面具备更高的灵活性,能够同时支持SRAM和DRAM,并且在优化DRAM以支持更大容量内存的同时,还能有效降低内存访问的延迟。这意味着,当采用先进的操作系统时,应用开发者无需再自行进行这些底层的内存优化工作,这对产品上市的时间以及解决方案形成的时间都大有助益。
结语
在边缘 AI 持续升温的背景下,Arm 通过 Cortex-A320 巩固了其在物联网领域的领导地位。这款处理器不仅以超高能效和强劲性能满足了当下需求,更以安全性提升和灵活生态为未来发展铺路。从智能物联网到消费电子,Cortex-A320+Ethos-U85的全新平台正以“恰当时间、合适场景”的方式,推动 AI 无处不在的愿景逐步落地。我们相信,Cortex-A320 的推出不仅是一次硬件升级,更是边缘计算迈向成熟的重要里程碑,其影响力将在未来多年持续显现。
“Arm 今天发布的全新平台不仅仅是一次渐进式的升级,它代表了我们为未来边缘计算和 AI 处理提出的新范式。这是我们首次专为物联网应用设计的 Armv9 架构处理器,它将超高能效与先进 AI 能力相结合,实现了前所未有的突破。当它与 Ethos-U85 结合时,将催生出全新的应用类别,开启无限可能。”Chloe总结到,“物联网领域正在迎来前所未有的机遇与生机,我们坚信,AI 的未来在边缘,而边缘 AI 的未来属于 Arm。”