ARM cortex-M55适合用于设计电池供电的AI智能系统的方案

[导读]人工智能的出现,或人工智能,作为一个关键的话题,很可能是由于大规模人工智能引擎的能力日益增长,如开放和它的生成前训练变压器(GTP)语言模型架构。虽然这些系统在数据中心层面发挥作用,而GPS提供了处理能力,但规模较小的人工智能工作量可以改善资源高度受限的嵌入式终端产品的性能和用户体验。

人工智能的出现,或人工智能,作为一个关键的话题,很可能是由于大规模人工智能引擎的能力日益增长,如开放和它的生成前训练变压器(GTP)语言模型架构。虽然这些系统在数据中心层面发挥作用,而GPS提供了处理能力,但规模较小的人工智能工作量可以改善资源高度受限的嵌入式终端产品的性能和用户体验。

在人工智能的电子猫智能识别中,可以训练ML来区分一只猫和另一只猫,只为允许进入的猫打开门。

例如,一个人工智能的电子猫智能识别。使用机器学习,这将首先训练,以区分猫与其他动物或物体。经过进一步的训练,它可以学会区分一只猫和所有其他的猫,并为那只猫打开门。其结果是,我们的家是安全的其他猫,我们的猫不需要穿rfid领或类似不舒服的旧技术进入家。在这里,人工智能极大地改善了宠物及其主人的用户体验。

如果这个或其他Ai增强的嵌入式应用程序是运行在电池电源,那么低耗电量是一个关键要求。大多数这种小型和资源有限的应用程序今天将以通用微控制器为基础。虽然使用微控制器实现机器学习功能是可能的,但是这些设备很难快速执行AI任务,而且在执行AI功能时消耗了太多的力量。服务器规模的GPS为嵌入式应用程序提供了多次所需的处理能力,但远远超过其成本和功率预算。

为了创建一个由电池操作的、启用的产品,设计师需要一种更好的方法来实现机器学习工作量,同时仍然保留通用微控制器中熟悉的工具和指令集。阿尔夫半导体公司开发的一种方法结合了一个新的处理架构和一个ARMcortex-M实时核心提供一个新的AI优化微控制器类别,以符合解决实现电池功率人工智能的挑战。我们将致力于演示与传统微控制器相比,这种方法如何提高人工智能工作负载的性能和功率效率。

人工智能工作量的特点

在大规模人工智能部署中使用GPS的原因是因为它们能够并行执行许多流程,这对于为人工智能创建有效的培训环境至关重要。神经网络通过同时处理几个大型数据集来学习.

例如,即使是单个图像也是一组大型数据集,由图像的高度和宽度以及每个像素上的数据定义。当我们将此添加到视频时,我们将像素数据的变化作为一个时间函数添加到这个训练过程中。不同于并行处理GPU,通用微控制器中的标准CPU可以连续处理数据,一次扫描每个像素,而不是像GPU那样感知整个图像。这意味着,为了执行同样的图像识别任务,即使是相对较慢的GPU,例如,为了精确识别宠物猫,微控制器的CPU必须在扫描每个像素时以更高的速度运行。

这样的操作将倾向于驱动CPU核心长期达到其最大工作频率。由于几乎所有的处理能力都分配给人工智能任务，微控制器的整体性能可能会受到影响。同时，该设备的功耗将增加到电池操作不再可行的程度。这表明了在基于传统通用微控制器的电池驱动产品中实现有用的人工智能功能的困难。

TinyML支持简单的AI工作负载，但可能不能解决猫智能识别的场景

虽然在通用微控制器的基础上开发出一种能增强电池的产品是很有挑战性的,但这绝不是不可能的。一种解决方案是降低工作负载的复杂性,直到设备的电源消耗和性能可以控制为止。TINML是机器学习的一个子集,它按毫瓦功率的顺序运行,而不是大规模人工智能工作负载使用的GPS消耗的数十瓦特功率。

通过利用专门设计的软件库进行资源受限的人工智能的培训和实现,Tinyml使电池驱动的设备能够运行简单的人工智能工作负载,例如使用加速计的手势识别--这种类型的模型可以用于智能可穿戴设备,以区分用户进行的不同练习。

这就是说,比像面部识别这样的高级人工智能任务更简单,而且需要更少的内存和处理能力。虽然有很多用于图像处理的工作量,比如目标跟踪,但这些工作量并没有达到识别单个猫的水平。对于改进终端产品的用户体验来说,TINML有很多优点,但低耗电量是牺牲了更高水平的AI功能的结果。

ARM-55和GPS的运算

设计AI增强产品时的另一个解决方案是选择一个配备了为任务设计的处理核心的单片机,例如ARM cortex-M55。由于一个新的矢量指令集扩展,ARM的内核技术,cortex-M55设备能够进行并行的算术运算,使类似于GPS的运算成为可能,尽管规模较小。

这,以及其他微控制器体系结构的发展,如cortex-M55浮点单元(fp),使cortex-M-55核心能够处理比典型的Tinyml应用程序更有挑战性的AI工作负载。虽然这个解决方案标志着在使用通用微控制器时可以实现的人工智能工作负载的复杂性有了很大的改善,但仍然存在着电池操作产品所不能满足的耗电问题。

通用微控制器的人工智能加速器

解决这一问题的秘诀在于ARM设计的一种新的加工结构:电子-U微处理器。这个专门的神经处理单元极大地提高了cortex-M核心的性能,并可以作为一个人工智能/ML加速器嵌入式iot设备。在需要cortex-M微控制器控制功能的AI增强终端产品中,AI/ML计算可以以比在cortex-MCPU上更有效的方式在这个新的密克罗尼西亚体系结构上直接运行。

将AI/ML工作负载转移到这个功能特定的核心,也允许主要的cortexM核心在睡眠或低功率模式中发挥作用,在AI操作期间提供了大量的电源节约。此外,这个微用户可以使用人工智能来筛选数据,这样只有在微用户推断出应用程序中有需求时,cortexM核心的更高功能才会被启动。通过使用EOS-U-FISUU,通用的cortex-M微控制器不受AI/ML工作量的负担,可以在不牺牲性能或电池寿命的情况下运行标准操作。

这一体系结构的第一个微控制器是Alif半导体器件的集成家庭。在现实世界的测试中,他们的皮质-M-55实时核心和EOS-U-55微孔的结合,已经发现减少了一个人工智能工作负载的能源消耗比其他皮质-M设备90%。

支持这一点的是高达90%的系统内存需求减少和高达75%的机器学习模型的尺寸减少由于脱机优化在密克罗尼西亚,以及先进的,无损的模型压缩算法。这个家庭在32位微控制器空间中添加了新的一类设备,这些设备保持了通用微控制器的熟悉性,但又增加了节能人工智能/ML推断的好处。

在阿尔夫集成开发工具包上运行一个8位16×16矩阵乘法的一个真实例子的现场演示中,ARM通过在该系统中的e3系统的cortex-M-55上启动氦矢量加速度,在CMM-DS本地库函数和编译器优化的帮助下,能够突出显示高达82%的执行时间改进。

AI/ML工作负载示例

不同水平的AI/ML推断可以通过堆叠多组cortex-M和EOS-U处理器配对来实现。例如,合体家庭中最基本的设备使用一个单一的cortex-M55实时核心,由一个单一的EOS-U55微浦AI/ML加速器支持。在这个新的硬件加速单片机家族中,集成e3是第一个进入生产的。基准数据显示,一个经过图像集数据训练的移动网V21.0模型使用Alif的微脉冲加速器执行速度比单独使用cortex-M-55单片机执行速度快135倍,执行时间为20毫秒,而使用cortex-M-55核心时则快近3秒。

请记住,cortexM-55的运行性能要比上一代cm核心高很多。每项推断所用的测量能量也显著下降。加速运行是108X更多的电力效率,消耗仅0.86MJ相比,对62.MJ。

当我们考虑到这个设备的双核版本时,事情变得非常有趣,它是建立在以前的微控制器的机器学习能力基础上的,它增加了第二个更强大的cortex-M55核,并按比例增加了电子档案，当与第一核心一起使用时,可以为运行较低和较高级别的AI/ML工作负载创建一个两级参照系统。

在限制耗电的情况下执行AI/ML任务的另一个关键是低功率模式,其中大部分芯片都被关闭。由于只有实时时钟和尾流源仍然活跃,这些微控制器绘制了大约1.0欧姆A,使他们成为电池操作系统的一个吸引人的解决方案。当系统需要醒来时,cortexM55核心可以以超低功率运行,仅仅是为了引导EOS-UMISCUU执行一个参考任务,以决定是否需要使用更多的集成设备。

现在考虑一下这项技术对我们前面提到的人工猫智能识别的影响。在我们之前的例子中,我们可以预期,猫最初是通过某种形式的运动感知、视频监控或两者的组合来检测的。不管这只猫是否还在框架中,当它试图识别我们的猫时,一个持续的视频传输和相关的AI推断将消耗大量的能量。

为了节省电源,双芯集成微控制器可以利用第一cortexM-55核心的唤醒功能,使用低功率传感器,首先检测猫智能识别前是否有运动。

一旦探测到运动,第一个cortexM55核就会唤醒低级别的参考系统中的电子-U-Meuu,以捕捉到视频的一些画面,并分析数据以检查是否有猫;它可能是另一种动物或者是在摄像机前经过的异物。如果在查看视频后发现一只猫接近了猫的皮瓣,第一个cortexM55可以唤醒更高层次的参考系统的第二个动作,以检查它是否是我们的猫。

如果CAT不被识别,该系统可以通过恢复低级别的运动检测系统来节省能量,直到一个新的物体进入框架。如果确定它是我们的猫,那么第二个微生物可以唤醒第二个cortexM55系统,并激活机制,让猫进来。猫和它的家人仍然获得了优越的用户体验的人工智能设备,但通过使用两级人工智能推断系统,启用了新的微控制器设计在集成设备,功率消耗可以大幅度降低。

在电池操作终端产品实现机器学习时遇到的困难中,由这种处理架构实现的两级参考系统可以解决高耗电和有限处理功率的问题。