未来MCU设计的几个方向
扫描二维码
随时随地手机看文章
MCU更加智能(AI)
通过NXP与Arm的技术合作,Ethos-U55的性能得到大幅提升,不仅将最大原始MAC(乘法和累加)性能提高一倍,达到1TOPS(1GHz工作频率下512次并行乘法累加操作),而且还能够正确调整系统总线的尺寸,以便将数据输入和输出到microNPU。但这还不够,MCU通常是基于SRAM和闪存的混合使用,但基于Cortex-A的应用处理器通常都有DRAM。DRAM提供了更高的数据速率和容量,但代价是延迟更长。microNPU需要更新设计来适应这种延迟,由此便诞生了Ethos-U65。
与Ethos-U55一样,Ethos-U65 microNPU可以与NXP的i.MX家族中已有的Cortex-M内核和片上SRAM协同工作。它继承了Ethos-U55的所有MCU级能效,与传统NPU相比,Cortex-M和Ethos-U的结合提高了面积和功率效率,从而能够开发出经济高效、高性能的边缘计算AI芯片。
从应用的角度来看,AI加速器搭配MCU渐成主流的主要原因是需要AI的应用场景越来越普遍。从具体的算法和模型来看,正在集中到少数几个模型,例如机器视觉(人脸识别,物体识别)和语音唤醒词中需要的卷积神经网络,以及在一些较为先进的语音识别中需要的循环神经网络(RNN)。三年前,AI算法和应用生态前景还不够明确,因此出现了走专用化(AI加速器)还是通用化(加强处理器性能以及可编程协处理器)两条道路的两难选择。而在应用和相关算法都已经很集中的今天,AI加速器已经成为较为明确的选择了。一方面,使用专用化的AI加速器可以提供最佳的能效比,另一方面在芯片设计门槛上也并不是太高。事实上,更考验设计能力的反而是编译器和相关的软件/模型优化。
ARM在短时间内连续发布两代针对MCU的microNPU,一方面说明MCU市场对于AI和AI加速器确实有很强的需求,另一方面我们也看到MCU和MPU甚至CPU之间的性能差距正在缩小,这将为未来智能MCU生态带来新的变化。
MCU更高性能
ARM Cortex分为3个系列,分别针对:嵌入式(Microcontroller)、实时(Real-Time)和应用(Application)3个应用领域,对应的内核是Cortex-M、Cortex-R和Cortex-A 系列。ARM Cortex-M处理器是一系列可向上兼容的高能效、易于使用的处理器内核,旨在帮助开发人员满足将来的嵌入式应用需求,比如以更低的成本提供更多功能、不断增加连接、改善代码重用和提高能效。Cortex-M系列针对成本和功耗敏感的MCU和终端应用(如智能测量、人机接口设备、汽车和工业控制系统、大型家用电器、消费性产品和医疗器械)的混合信号设备进行了优化。
Cortex-M系列基于ARMv7-M架构(用于Cortex-M3和Cortex-M4),而较低的Cortex-M0 基于ARMv6-M架构。首款Cortex-M处理器于2004年发布,当一些主流MCU供应商选择这款内核开始量产MCU芯片后,Cortex-M处理器迅速受到市场青睐。可以说,Cortex-M之于32位MCU就如同8051之于8位MCU,迅速成为业界标准微处理器内核,各家MCU供应商基于该内核进行自己的开发,在市场中提供差异化产品。例如,Cortex-M系列能够实现在FPGA中作为软核使用,但更常见的用法是作为集成存储器、时钟和外设的MCU。
对于成本特别敏感的应用或者正在从8位迁移到32位的应用而言,Cortex-M系列的最低端产品可能是最佳选择。虽然Cortex-M0 的性能仅为0.95 DMIPS/MHz,比Cortex-M3和Cortex-M4的性能低一些,但仍可与同系列其他高端产品兼容。Cortex-M0 采用Thumb-2指令集的子集,而且这些指令大都是16位操作数(虽然所有数据运行都是32位的),这使得它们能够很好的适应Cortex-M0 所提供的2级流水线服务。通过减少分支映射,系统就能节约整体功耗,而且在大多数情况下,流水线将保留接下来的四个指令。Cortex-M0 还具有专用的总线用于单周期GPIO,这意味着设计师能够利用位控制的GPIO实现确定接口(就像8位MCU那样),但却以32位内核的性能来处理数据。
Cortex-M0 另外一个重要的特点是增加了微型跟踪缓冲器(MTB)。该外设可使设计人员在调试过程中使用一些片上RAM来存储程序分支。这些分支随后能够回传到集成开发环境中,而且可以重建程序流程。这一功能提供了一种初步的指令跟踪能力,这对于不具备扩展跟踪宏单元(ETM)功能的Cortex-M3和Cortex-M4来说比较有意义。从Cortex-M0 中提取的调试信息等级显著高于8位MCU,这就意味着那些难以解决的调试问题变得更加容易解决。
Cortex-M3和Cortex-M4是非常相似的内核,二者都具有1.25 DMIPS/MHz的性能,配有3级流水线、多重32位总线接口、时钟速率可高达200MHz,并配有非常高效的调试选项。二者最大的不同是,Cortex-M4的内核性能针对的是DSP。Cortex-M3和Cortex-M4具有相同的架构和指令集(Thumb-2)。然而,Cortex-M4增加了一系列特别针对处理DSP算法而优化的饱和运算和SIMD指令。以每0.5秒运行一次的512点FFT为例,如果分别在同类量产的Cortex-M3 MCU和Cortex-M4 MCU上运行,完成同样的工作,Cortex-M3所需功耗约是Cortex-M4所需功耗的三倍。此外,也有在Cortex-M4上实现单精度浮点单元(FPU)的选项。如果应用涉及到浮点计算,那在Cortex-M4上完成比在Cortex-M3上完成要快得多。也就是说,对于不使用Cortex-M4上DSP或FPU功能的应用而言,其性能和功耗与Cortex-M3相同。如果使用DSP功能,那就选择Cortex-M4。否则就选择Cortex-M3完成工作。
伴随着Arm Cortex-M系列内核的性能提升,MCU芯片制造工艺也在不断升级。例如,ST的新一代高性能MCU STM32F4基于Cortex-M33内核,具有200MHz的性能,而且采用更为先进的40nm工艺制造。此外,MCU厂商也在尝试从MCU产品领域跨界到MPU领域。今天很多用户不仅用MCU,还有很多采用MPU。MPU带来的不仅是产品本身的性能提升,还有更多软件的选择,因为它基于开源的Linux生态,带来从中间件、OS到应用层更多的选择和丰富的生态。
Arm阵营只有Arm一家公司提供处理器内核,而RISC-V阵营则是百家争鸣。作为RISC-V微处理器的开路先锋,SiFive提供的RISC-V内核正好对标Arm的3个系列内核,分别是:
-
E核 -- 32位嵌入式内核,针对边缘计算、AI和物联网应用,对标ARM Cortex-M系列;
-
S核 -- 64位嵌入式内核,针对存储、AR/VR和机器人应用,对标ARM Cortex-R系列;
-
U核 -- 64位应用处理器,面向数据中心、通信网络等领域,对标ARM Cortex-A系列。
每种类型的内核又按照数字标号从低端到高端做了不同种类,包括2系列、3/5系列、7系列,对标Cortex A、R、M编号从低到高可用于不同的场景。可以说是从横向和纵向都对标了Arm系列。本土RISC-V处理器内核开发商芯来科技也推出了四个不同性能级别的处理器内核,分别是:
-
N100系列处理器内核主要面向极低功耗与极小面积的场景而设计,非常适合传统的8位内核或16位内核升级需求,可广泛应用于模数混合、IoT或其他超低功耗应用场景;
-
N200系列32位超低功耗RISC-V处理器为物联网IoT终端设备的感知、连接、控制以及轻量级智能应用而设计;
-
N300系列32位超低功耗RISC-V处理器面向机制能效比高且需要DSP和FPU特性的场景而设计,适用于IoT和工业控制等场景;
-
N600系列32位RISC-V处理器面向实时控制或高性能嵌入式应用场景,适用于AIoT边缘计算、存储或其他实时控制应用。
-
22内核应用于小型物联网及穿戴设备等入门级MCU,效能达同级别间最高的 3.95 Coremark/MHz,其高性能和精简设计,适合处理以高数据传输率运行中的协定封包;
-
N25F内核适合浮点密集型的多元应用,例如声音处里、先进马达控制器、卫星导航、高精度传感器融合以及高阶智能电表等;
-
45系列内核均采用有序的8级双发射超标量技术,N-系列支持RTOS的应用,D-系列则支持RISC-V的SIMD / DSP指令集(P扩展指令集)。
阿里旗下的平头哥半导体主要针对下一代云端一体芯片新型架构开发数据中心和嵌入式IoT芯片产品,其E902处理器采用2级极简流水线,兼容RISC-V架构且对执行效率等方面进行了增强,并可进一步选配安全执行技术以增强系统安全性,适用于对功耗和成本极其敏感的IoT、MCU等领域。
MCU更低功耗
如果允许外围设备相互通信,并在不唤醒 CPU 的情况下可以监控传感器,这样可以大大降低系统的总功耗。Silicon Labs 的EZR32无线MCU就是一个很好的例子,它具有外设反射系统,允许外设在不唤醒 CPU 的情况下相互通信,其低功耗传感器接口可以在 CPU 处于深度睡眠状态下监控多达16个传感器。MCU和射频收发器节能技术的结合使得无线MCU成为物联网应用中电池供电传感器节点的理想选择。
为满足客户的低功耗需求,ST从2009年发布第一颗基于Cortex-M3的L1,到2014年基于M0的L0产品,一直到2015年、2017年持续给用户提供基于M4内核的L4和L4 。国内自主品牌的可穿戴手表有90%是基于L4和L4 这个产品线。去年ST发布了第一个基于Cortex-M33的STM32L5产品线,提升了整体安全性能和能效比,同时今年第一季度又发布了第一个基于40nm工艺的STM32U5产品线。
MCU更加安全
国民技术是本土厂商中专门做“安全MCU”的企业,其安全芯片是一种为MCU融入安全技术,或者说增加相关安全模块的芯片产品。除了常规的MCU组成部分,其特点在于加强了芯片关键信息存储、运算过程的保护和抗攻击能力。下图中的红色部分即是国民技术为其安全芯片增加的安全模块。
再比如各类密码算法硬件加速引擎的加入(包括国密算法)、时钟安全系统(外部时钟晶体失效时自动切换到内部RC振荡器)、固件安全更新(固件签名认证),以及一些防侧信道攻击的方案(典型如指令功耗平衡,因为攻击者通过功耗、发热等侧信道攻击方式是可以进行算法推断,进而获取资产的,指令功耗平衡可以切断这些侧信道攻击的可行性)。
MCU无线连接(Wireless)
无线MCU将成为AIoT时代的标准处理器芯片,像Silicon Labs这样的国际厂商数年前就开始专注于IoT应用市场,甚至将其它业务剥离出去,而100%投入物联网,他们在各种无线连接通信协议的集成和支持上是值得关注的。而像乐鑫科技和联盛德等国内芯片厂商也开始在其芯片中集成更多的无线连接特性,他们有望把握住新兴的物联网机会,而成为AIoT时代的领导厂商。
MCU更小尺寸
小封装 MCU 是控制体积受限型 IoT 终端节点应用的理想元件。许多MCU还有其它功能,可将一个功能非常强大的设计轻松放入引脚受限的形状内。灵活的引脚分配、自主运行以及智能化外设互连器件是小引脚数 MCU 先进特性的一些示例,它们进一步提升了MCU的适应能力。
------------ END ------------