TetraMem将高性能的存内运算与Andes晶心RISC-V向量处理器整合

时间：2024-12-05 17:25:39

关键字： RISC-V 人工智能物联网

手机看文章

扫描二维码
随时随地手机看文章

[导读]人工智能在越来越多的硬件应用中快速发展，推动了对传统冯·诺依曼架构无法满足专业计算加速的前所未有的需求。在众多竞争性替代方案中，最有前景的一种方案是模拟存内运算(In-Memory Computing, IMC)。释放多级阻变存储器(RRAM)的潜力，让这一承诺在今天比以往更加真实，硅谷新创公司TetraMem引领这一发展，正在解决阻碍这一解决方案发展的根本挑战。该公司的独特IMC采用多级RRAM技术，提供更高效、低延迟的AI处理，满足AR/VR、移动设备、物联网等现代应用不断增长的需求。

简介

人工智能在越来越多的硬件应用中快速发展，推动了对传统冯·诺依曼架构无法满足专业计算加速的前所未有的需求。在众多竞争性替代方案中，最有前景的一种方案是模拟存内运算(In-Memory Computing, IMC)。释放多级阻变存储器(RRAM)的潜力，让这一承诺在今天比以往更加真实，硅谷新创公司TetraMem引领这一发展，正在解决阻碍这一解决方案发展的根本挑战。该公司的独特IMC采用多级RRAM技术，提供更高效、低延迟的AI处理，满足AR/VR、移动设备、物联网等现代应用不断增长的需求。

半导体产业背景

过去几十年来，半导体产业取得了显著进步，特别是在满足人工智能和机器学习不断增长的需求方面。芯片设计的创新突破了性能和效率的界限，然而，一些固有的持续挑战仍然存在，例如冯·诺依曼瓶颈和存储墙(memory wall)，限制了CPU和内存之间的数据传输速率，以及与先进节点技术相关的不断升级的功耗和热管理问题。

IMC代表了一种突破性的计算方法转变，改变了数据处理的方式。传统的运算架构将存储和处理单元分开，产生大量的数据传输负担，特别是对于以数据为中心的人工智能应用程序。另一方面，IMC将存储器和处理器整合在同一实体中，通过交叉阵列架构实现更快、更高效的数据运算，进一步消除矩阵运算中的大量中间数据。这种方法对于大规模数据处理和实时分析至关重要的人工智能和机器学习应用特别有益。

为IMC选择合适的存储设备至关重要，SRAM和DRAM等传统存储技术由于其设备和单元限制及其易失性特性，并未针对存储中操作进行优化。RRAM凭借其高密度、多级功能和非挥发性以及卓越的保持能力，无需刷新即可克服这些挑战。RRAM的工作原理是通过控制电压或电流来调整存储单元的电阻变化，模仿人类大脑中突触的行为，这一功能使RRAM特别适合模拟IMC。

TetraMem专注于多级RRAM(阻变存储器)技术，与传统的单级单元存储技术相比，该技术具有多种优势。RRAM能够在每个单元中存储多个比特，并在原地执行高效的矩阵乘法运算，这使其成为IMC的理想选择。该技术解决了传统数字运算的许多限制，例如带宽限制和能效不足等问题。

RRAM可编程电路设备会记住其最后的稳定电阻值，此电阻值可以通过施加电压或电流来调节，施加在设备上的电压和电流的大小和方向变化会改变其导电性，从而改变其电阻值。类似人类神经元的功能，这种机制有多种应用：存储、模拟神经元，以及TetraMem的存内运算IMC。RRAM的操作由离子驱动，通过控制导电丝的尺寸、离子浓度和高度，可以精确实现不同的单元电阻多级变化。

数据在与存储相同的实体中进行处理，中间数据移动和存储最少，从而实现低功耗。通过具有设备级颗粒内核的交叉阵列架构进行大规模并行运算可产生高吞吐量。通过物理定律(欧姆定律和基尔霍夫电流定律)进行运算，确保低延迟。TetraMem的非易失性存内运算单元相比传统的数字冯·诺依曼架构可大幅降低功耗。

显著成就

TetraMem在RRAM技术的发展中取得了重要的里程碑。值得注意的是，该公司展示了一个前所未有的设备，每个单元具有11位，在单个设备中实现了2000多个信息等级，这一精度水平代表了存内运算IMC技术的重大突破。

近期在Nature《1》和Science《2》等著名期刊上发表的文章强调了TetraMem的创新方法。提高单元噪声性能和增强多级信息IMC运算技术是其重要的进展领域。例如，TetraMem开发了专有算法来抑制随机电报噪声(telegraph noise)，从而使RRAM单元具有更优越的记忆保持和耐久性特征。

存内运算(IMC)的运作

TetraMem的IMC技术采用交叉架构，其中阵列中的每个交点对应于一个可编程的RRAM存储单元。这种配置允许高度并行操作，这对神经网络计算至关重要。在向量矩阵乘法(Vector-Matrix Multiplication, VMM)操作期间，输入信号会应用于交叉开关阵列，计算结果被收集到位线(bit lines)上。这种方法大大减少了在存储和处理单元之间传输数据的需求，从而提高了计算效率。

实际应用

TetraMem通过商业晶圆厂制造的首款评估SoC，MX100芯片(见下图)展示了其IMC技术的实际应用。该芯片已在多个芯片内演示中展示了其能力，展示了其在现实场景中的功能。一个值得注意的演示是瞳孔中心网络(Pupil Center Net, PCN)，展示了该芯片在AR/VR中的应用，用于自动驾驶车辆中的面部追踪和身份验证监控。

为了促进其技术的采用，TetraMem提供了全面的软件开发套件(Software Development Kit, SDK)。此SDK使开发者能够无缝地定义边缘AI模型。此外，与Andes晶心科技的NX27V RISC-V CPU及其向量扩展功能的整合简化了操作，让客户更轻松地将TetraMem的解决方案部署到其产品中。

TetraMem的IMC设计非常适合矩阵乘法，但在向量或标量运算等其他功能上的效率不高。这些运算在神经网络中经常使用，为了支持这些功能，Andes晶心科技提供了CPU加向量引擎的灵活性，并拥有现有的SoC参考设计以及成熟的编译器和函数库，以加快我们的市场推广时间。

TetraMem与Andes晶心科技合作，将其IMC技术与Andes晶心的RISC-V CPU和向量扩展集成在一起。这一合作提升了整体系统性能，为各种AI任务提供了强大的平台。结合的解决方案充分利用了两家公司优势，提供了一个灵活且高效的架构。

展望未来，TetraMem准备推出基于22nm技术的MX200芯片，这款芯片承诺将提供更大的性能和效率。该芯片专为边缘推理应用而设计，提供低功耗、低延迟的AI处理。MX200预计将开拓新的市场机会，特别是在能源效率至关重要的电池供电的人工智能设备中。

结论

TetraMem在IMC方面的进展代表了AI硬件领域的一次重大飞跃。通过解决传统计算的基本挑战，TetraMem正在为更高效和可扩展的AI解决方案铺平道路。随着公司不断创新并与Andes晶心科技等行业领导者合作，AI处理的未来看起来充满希望。TetraMem的解决方案不仅提升了性能，还降低了采用尖端AI技术的门槛。