通用MCU上添加硬件NPU单元,实现30倍于Cortex-M33的AI加速能力
扫描二维码
随时随地手机看文章
AI和ML的运算正在从云端向边缘端迁移,计算重心的前置带来的好处不言而喻。而这种边缘AI,并不会止步于手机、电脑这些具备SoC级别算力的终端,而是会继续向着数百亿的MCU为主控的物联网设备蔓延。除此外,无线连接、安全性等特性也愈发重要,通用MCU平台的新纪元即将到来。NXP敏锐捕捉到这一机遇,于近日推出了其通用MCU平台下的新系列产品——MCX微控制器产品组合。
“以前提到好控制器的标准就是:按下按钮就有很快的反应,但现在远不止这样,我们希望处理器本身有预知性,这就需要引入人工智能的要素。所以,我相信越来越多的落地的项目会要求边缘计算平台拥有越来越多的AI功能支持。”恩智浦大中华区工业与物联网市场高级总监金宇杰在媒体会上分享到。
MCX MCU:集合LPC、Kinetis传统优势,聚集边缘计算未来需求
NXP有三大类边缘计算平台,分别是通用MCU平台(LPC、Kinetis),跨界MCU i.MX RT系列,以及i.MX和Layerscape系列应用处理器;这三大类产品构筑了NXP广阔而丰富的可拓展的边缘计算平台。近年来新推出的跨界MCU,填补了MPU和MCU之间的市场空隙,获得了非常好的市场反响。
而在通用MCU市场,一个新的纪元也即将开启。据IHS预测2030年将会有750亿个联网设备,这带来了新的MCU应用需求。低功耗、无线连接、安全、高性能和AI能力的追求,成为了新的通用MCU的必备能力。而且同一MCU平台需要具有灵活的可迁移性,方便开发者进行设计的迁移。
基于以上关于智能边缘的种种趋势,NXP推出了全新的通用MCU平台——MCX微控制器产品组合。这一平台融合了LPC、Kinetis传统优势,从它们手中接过了接力棒,将会开启下一段智能边缘的征程。
四大系列
据悉MCX将首先基于Arm Cortex-M33内核来进行设计,此次发布为MCX平台的首次曝光,因此并没有实际出货型号,但非常清晰地给大家展示了其四大产品布局。
MCX N高性能系列:工作频率为150~250MHz,首次将NPU和DSP这两个元素放到了MCU中。此外,也嵌入了恩智浦特有的安全系统——EdgeLock。
MCX A基准系列:工作频率在48~96MHz,内置定时器、低引脚数、单引脚电源,针对成本受限应用进行了优化。
MCX W无线连接系列:工作频率在32~150MHz,集成低功耗的蓝牙无线模块,另外也将会尽量高度集成一些外围的器件,使得关联的整个BOM减少、整体板集成度降低。
MCX L超低功耗系列,工作频率在50~100MHz,该系列针对低功耗需求应用进行了优化,并且集成了原来的LPC里成功的低功耗,力求超低的动态功耗和非常低的泄漏功耗。
一个平台,更容易的设计扩展和迁移
因为采用了同一个平台,拥有众多宽广的产品型号,所以开发者在不同MCU之间进行设计拓展和迁移时的难度会更低。
“MCX是恩智浦推出的全新MCU家族,也是一个崭新的、发挥了承上启下作用的品牌。”恩智浦边缘处理事业部系统工程高级总监王朋朋分享到,“恩智浦在MCU家族中提供了N、L、W、A四个不同的系列。它可以在跨界处理器和应用处理器之间进行无缝衔接,具有比较好的拓展性;安全功能方面,MCX集成了EdgeLock安全处理单元,继承了恩智浦一贯高安全性特点和可靠的性能;在系统设计上,新的产品系列受到恩智浦MCUXpresso软件套件和开发工具的广泛支持,在开发过程中,不论是从之前的LPC、Kinetis移植,还是设计未来的产品,都会是一个很简单、无缝地衔接过程。”
NPU集成进通用MCU:适合的核、适合的任务、适合的时机
在传统的通用MCU上做AI和ML的应用,并不新鲜,但困难并不小,而且从整个系统的评估角度而言,并不是那么“合适”。
要将一些成熟的算法部署到MCU的CPU核上,大模型是不现实的,算法的适配需要花费极大的工作,而这对于长于做控制的MCU开发者而言,是颇为不易的。所以其实目前MCU厂商都有推出相应的AI开发工具包,或者是例程,供开发者使用。
但另一个不能克服的问题在于,MCU的CPU核并不适合做AI和ML的运算,这将会极大地占用其计算资源。高度依赖CPU核和FPU等硬件资源,也会带来功耗的上升,从系统角度来看并不是合适的做法。
从成本角度考虑,一个简单的AI任务,可能就需要非常高主频的M7的核心来处理,才会达到符合实际应用响应速度的结果,这也有点违背我们在边缘侧的设计追求。
因此,在通用MCU中添加一个硬件NPU,来为一些边缘侧通用的AI运算进行专门的加速,成为了解决问题最好的答案。CPU核可以专注于自己擅长的计算任务,将AI ML的运算交给NPU。
MCX N系列恰恰就是在合适的时机推出、让适合的核去做适合的任务,从而帮助开发者实现未来智能边缘更好的设计。
恩智浦NPU加速器
据王朋朋介绍,该NPU为NXP的自研硬件IP,在MCU领域中,集成神经处理单元应该说是迎合了这个时代。
NPU作为CPU的AI运算协处理器,其内部最主要是拥有专门的计算通道。如上图所示为NXP的NPU的最小示例,这是一个4×4的计算处理单元,其中就包含四个计算管道,每个计算管道里有四个计算单元。
在性能层面,该NPU可以覆盖从32次运算/周期到2000次运算/周期,并且未来还可以扩展到更高的性能或更小的单元。NXP的整个MCU、MPU家族里,都会采用统一的NPU架构,提供更高性能的NPU的加速器。通过一致的NPU架构,同样的算法也更容易从MPU迁移到MCU平台上。
集成NPU的意义
“人工智能、机器学习的运算非常集中也非常简单,就是做卷积,但用CPU来做将会特别耗CPU资源,因为花了大量的CPU带宽却只做一件事情,这些任务特别适合用一个专用的神经网络的单元来做。内嵌的DSP的高端MCU,DSP和CPU一样能够做一定的人工智能,但并不擅长,因此会白白浪费掉很多的资源,不像NPU专门用来做卷积和累加这么合适。”王朋朋分享到。
“一个专用的NPU处理器会事半功倍,IP做得很巧妙并不会很复杂,且不用占MCU上很大的成本,做人工智能又非常合适,然后能够让CPU解放出来去做应该做的控制或者是实时处理的控制。在NPU上进行机器学习的运算加速时,比如做二维卷积神经网络、点卷积,或者深度卷积,其性能会比Cortex-M33的内核有至少30倍以上或更高的加速。”
因此在MCX N的MCU上,可以实现CPU和NPU的并行处理,即同时做到控制和外界的交互,机器学习的卷积处理本身是由NPU来完成,不占用CPU的资源。因此人工智能处理和一般通用的输入输出控制可以并行实现。在一颗通用的MCU上,既实现了传统MCU做的事情,同时又实现了人工智能的运算加速。
清晰的定位和场景
NXP在跨界处理器i.MX RT推出时,是在模糊的边界上,捕捉到了清晰的市场空白,足见其产品定义的功力。而此次推出的带硬件NPU模块的MCU,可谓是NXP又捕捉到了一个广阔前景的市场空白和清晰的应用前景。
相比一些AI SoC,NXP N的通用性更好,能够覆盖到更多的基础应用的AI特性升级;而对于一些AI更加前置、在传感器中添加加速器的产品而言,其加速器往往功能比较单一,仅适用于其传感器的数据筛选,并不具备更灵活的通用性,不能支持更多算法模型。
据悉,MCX的应用场景是针对MCU现有的应用场景进行的拓展,在传统的控制应用基础上增加元素:比如在医疗设备、无人机,或者工业控制中加上智能识别、故障检测、语音控制等。基于NPU的出现,也会有很多新应用出现,例如在日常生活场景中,有开发者在做识别物体的秤,目的是为了做到把东西放在秤上就可以直接结账;在医学检测中,可以应用于检测含疟疾的红细胞;在交通出行中,可以帮助智能车识别障碍,自动地做出判断和处理等等。
据金宇杰介绍,例如在电梯的运营优化中,NPU也可以发挥巨大的作用。“电梯会对人数进行一定的限制,一般大概在12-15个人左右。恩智浦的MCU产品加上NPU可以帮助智能电梯做人数统计,并另外对电梯本身进行流量计算。我们的产品对算力提供了支持的同时,也对模型进行了优化,尤其是嵌入式平台的优化。”
总结
高性能、无线、安全和AI特性,具备所有这些特性的通用MCU平台是大势所趋。业界很多厂商其实也已经有非常完备的平台,但在通用MCU中添加硬件NPU的,MCX尚属首例,可谓再次抢得了市场先机。不过通用MCU市场卷的严重,其他厂商的类似产品预计也会很快推出,