告别多芯片方案!用一颗自适应SoC实现端侧的AI全流程计算加速
扫描二维码
随时随地手机看文章
2018年ACAP(适应性计算加速平台)是Xlinx(现已并入AMD)的一个重要里程碑。彼时刚上任CEO的Victor Peng宣布了Versal ACAP这一全新的平台,这一更灵活的产品形态打开了传统FPGA产品迈向全面自适应加速计算的新市场。
在2018年,ACAP需要解决的问题是为端边云实现大幅计算加速,增加在各种工作负载中的计算密度。Versal" 可能是 "Versatile"(多功能的)和 "Universal"(通用的)的结合,通过对于多种加速器IP的融合,旨在“在整个行业工艺制程线性增长受限的情况下,维持计算密度的加速增长曲线”。而到了2024年的今天,无人不谈AI,AI无处不在。当AI从云走向端侧,新的计算难题来了。如何为端侧设备实现更高效的AI计算,为其插上AI的翅膀?这将会是AMD最新发布的第二代Versal™ AI Edge系列自适应 SoC想要解决的难题。
在端侧设备上的实现AI加速计算,面临哪些难题?
在端侧设备,也就是嵌入式系统中要实现AI计算,面临着诸多的限制。这些限制一部分是来自传统的我们所能熟知的应用环境和设备自身,包括功耗水平、体积、散热、实时性、信息安全和功能安全等等,针对这些问题的优化,是所有类型的端侧计算芯片厂商都在着力的方向。而谈及在端侧上部署AI计算,AMD则从系统角度观察到了另一个更为关键的问题。
据AMD自适应与嵌入式计算事业部(AECG ) Versal产品营销总监Manuel Uhm介绍,在AI驱动型嵌入式系统中,包含三个处理阶段,分别是预处理(传感器处理于融合,数据调节)、AI推理(感知、分析、情景感知)和后处理(决策、控制、反馈)。
目前大家的关注重点都放在AI推理阶段,因为这是AI算法运行的阶段。但其实在嵌入式系统中要应该从更加宏观的系统视角来审视——首先要有数据,数据要经过预处理,才能提供给推断来使用;推断之后又必须要进行后处理,这样才可以通过推断的结果做出决策。“在实时AI驱动嵌入式系统当中,这三类算力都必须能够加速,才能够真正实现全系统的实时。”Manuel Uhm解释到。
预处理阶段需要将各类传感器采集的原始数据进行处理,这其中也涉及到了一些传感器的数据融合和数据调节的工作,该阶段是提高AI驱动型嵌入式系统的实时性和高效计算的关键。可编程逻辑在这一阶段的优势在于,能够非常灵活地适用各类传感器类型接口,同时保证更低的时延和更好的确定性,并且能够在现场完成部署之后持续升级。接下来在推理过程中,包含着大量的矢量数据计算工作,需要的是专用的矢量处理器来实现加速分析。而在最后一步的后处理阶段则需要高性能的嵌入式CPU来做出决策和实现控制。
梳理完整个AI驱动型嵌入式系统的内部数据处理流程之后,就不难发现当前的行业痛点所在——目前没有一类处理器能够同时针对预处理、AI推理和后处理三个阶段同时优化。即便是集成了AI Core的第一代Verssal自适应SoC,也只可以完成“预处理+AI推理”两个阶段,但无法覆盖到最终的决策和控制过程中。
多芯片方案将会带来更高的BOM成本、更大的体积占用、更高的功耗、更复杂的供电设计。多芯片之间的互联互通问题,也带来了更高的系统时延和信息安全挑战,也使得系统集成、软件设计方面的复杂度进一步提升。
而AMD此次最新推出的第二代Versal自适应SoC中的AI Edge系列就可以很好地解决这一系列的难题,为AI驱动型嵌入式系统提供单片智能的解决方案。
在单芯片中实现AI应用的端到端加速,第二代Versal AI Edge从边缘传感器走向中央计算
据悉,此次最新发布的第二代Versal自适应SoC包含两个系列,其中AI Edge系列是专门面向AI驱动型嵌入式系统打造,Prime系列则是主打经典嵌入式系统的市场。相比上一代Versal产品,新一代实现了高达3倍的每瓦TOPS性能提升,全新的高性能集成CPU也带来了高达10倍的标量计算能力提升。
“单芯片智能意味着在单个器件中提供端到端的加速,也就是可以实现AI全部三个阶段的加速。”Manuel分享到。在Versal第二代产品中,第一阶段的传感器数据预处理加速,可以由其中的可编辑逻辑块来完成,而特别针对视频和图像信号预处理,还可以直接调用其中针对视频和图像处理的硬加速IP来完成。在第二阶段的AI推理方面,可以通过新产品中内置的AIE-ML v2这一AI引擎来完成。而在第三阶段的控制和执行阶段的实时性保证方面,则有集成的Arm Cortex-A78AE和Cortex-R52来支持。
据了解,Versal不仅仅是单芯片实现AI智能,带来了单芯片的方案优势。而且每一阶段分开来对比多芯片的方案,也有着明显的计算加速的提升。
在预处理阶段,传统的非自适应SoC的接口数量和类型往往是有限且固定的,当需要照顾到一些不同类型的传感器连接、进行多类型数据传输和处理时,就必然要通过外部的内存来进行缓存,这就必然会导致整个处理效率低下,时延变长。而采用可编程逻辑就灵活的多,能够应对各种复杂的多传感器配置,且不需要外部内存,也没有缓存的配置需求,整个执行时间大大缩短,时延得到有效降低。
在AI推理方面,面临着多类型数据高速吞吐和精准度的挑战。而二代Versal AI Edge系列能够实现对于MX6数据类型高达370 TFLOPS的算力支持,对于INT8高达184TOPS的算力支持;内部集成的AIE-ML v2引擎还可以进行像FIR、FFT等数据信号的处理工作。
在最后的控制和执行阶段,二代Versal中的Arm Cortex-A78AE核心,每核心最高频率高达2.2GHz,并且有高达200.3K的DMIPS算力。针对控制功能的实时处理单元,RPU可以有高达10倍的Arm Cortex-R52核心,每核心最高频率高达1.05 GHz,提供高达28.5K的DMIPS算力。
同时Manuel也强调,二代Versal AI Edge系列最高级别产品将会通过ASIL-D车规级认证和SIL3安全认证,以满足汽车、工业和机器人等应用客户的功能安全需求。
据悉,斯巴鲁将会在EyeSight系统中使用AMD的第二代Versal器件,通过单芯片智能的极低时延、多数据类型支持和高吞吐量等优势,来支持其车型实现碰撞前制动、车道偏离预警、自适应巡航控制和车道保持辅助。
第二代Versal的单芯片方案,相对于传统的多芯片方案而言,在AI驱动型嵌入式系统上带来的优化是显著的。举例而言,在一个高级自动驾驶辅助系统中,同等的功率水平下就能够具有4倍图像处理的能力;而在智慧城市摄像头的系统中,可以实现30%的占板面积减少和支持2倍的视频流提升;在专业的音视频和广播视频流处理系统中,能够实现每秒60帧的高精度流量表现,与Zynq MPSoC的效率相比,提供2倍的视频处理面积,每路视频流占板面积缩小35%。
Manuel表示,“第二代Versal AI Edge系列的产品,最主要的目的是能够形成系统的中央计算,这与第一代是不同的。第一代更多是进行CPU的加速,但是现在新一代主要针对的就是中央计算引擎。我们在这个领域也是深耕很多年,凭借着几十年的经验,也是在市场上能够应对嵌入式系统所带来的各种挑战而推出解决方案。”
---
据悉,的第二代Versal自适应SoC目前正在与主要客户进行接洽,早期访问文档现已发布。而芯片样片预计将于2025上半年正式发布,有望在2025年末实现大规模量产出货。