内存计算,人工智能引起研究兴趣
扫描二维码
随时随地手机看文章
随着对人工智能 (AI) 和内存计算的兴趣显着增加,电阻式随机存取存储器 (ReRAM) 可能成为解锁其模仿人脑能力的关键——但挑战依然存在。
去年的 IEDM 汇集了许多关于推进各种内存类型的最新研究论文,包括新兴的和现有的。毫不奇怪,他们中的很多人都致力于记忆如何改善内存计算、人工智能和机器学习 (ML),甚至模仿人脑。
ReRAM 一直是神经病计算的代名词,Weebit Nano 已经表达了对其技术追求的兴趣;尽管它在公司的其他业务重点上处于次要地位。
与此同时,密歇根大学至少十年前就一直在开发各种 ReRAM 原型。该大学电气工程和计算机科学系教授 Wei D. Lu 解释说,ReRAM 提供高密度非易失性存储和高效内存计算的潜力,而支持 ReRAM 的加速器可以解决冯诺依曼瓶颈密歇根州。他的 IEDM 演示概述了一些设备,以及并行性如何解决越来越大的 AI 模型以及边缘计算应用程序的功率、延迟和成本要求。
利用并行性的 CPU 仍然会遇到内存瓶颈。虽然 GPU 允许更快的内存访问,但 Lu 表示,需要一种从根本上提高吞吐量和计算效率的新计算架构。内存保护单元 (MPU) 可以显着提高并行性并将内存与逻辑放在一起,从而实现设备级计算并更好地促进内存计算。
MPU 可以显着提高并行性并将内存与逻辑放在一起,从而实现设备级计算并更好地促进内存计算(图片由密歇根大学提供)
Lu 说,ReRAM 在内存计算方面的潜力在于使用 ReRAM 阵列作为计算结构,因为它可以本地执行学习和推理功能。ReRAM 还支持双向数据流,而更大的神经网络可以使用具有平铺 MPU 架构的模块化系统来实现,以实现更高的吞吐量。
应对 RERAM 挑战
然而,ReRAM 器件存在几个关键挑战。一方面,基于高精度模数转换器的读出电路构成了重大挑战,而性能可能会受到包括单元间变化在内的设备非理想性的影响。第三个挑战是在 ReRRAM 设备中观察到的非线性和不对称电导更新会严重降低训练精度,Lu 说。
第一个问题的潜在解决方案包括多范围量化和二元神经网络。Lu 说,具有架构意识的培训可以解决由设备非理想性引起的性能问题,以及使用 2T2R 架构实现二进制权重,这也有助于应对第三个挑战。混合精度训练还可以解决第二个和第三个挑战,因为它通过以较低精度格式训练大型神经网络来提供显着的性能和计算提升。
相变存储器 (PCM)也是改进内存计算的候选者。IBM Research Europe 一直在探索使用 PCM 来解决模拟内存计算的温度敏感性问题。正如 IBM Research 内存计算小组成员 Irem Boybat 所述,随着人工智能神经网络的蓬勃发展,存在计算效率问题。深度学习是计算密集型的,如果正在进行的“人工智能革命”要可持续,就必须采用颠覆性的计算机范式。
“语言模型的规模呈指数级增长,”Boybat 说。根据 Boybat 的说法,这涉及将大量数据从内存传输到处理单元,这很昂贵并且会留下大量的碳足迹。
模拟内存计算通过在内存本身内执行某些计算任务来模糊内存和处理之间的界限,并通过利用内存设备的物理属性来实现。Boybat 说,PCM 是内存计算的有前途的候选者,因为它可以以非常密集的方式存储信息并且消耗的静态功率可以忽略不计。IBM Research 最近在过去一年展示了两款基于 PCM 的内存计算芯片。
温度敏感性仍然是该团队的研究领域,蘑菇型 PCM 被用于研究保留。放置在芯片下方的电阻加热器和温度表明,在 30 至 80 摄氏度范围内预计不会出现滞留问题。IBM Research 的实验研究了温度变化和漂移对用于内存计算的多级 PCM 的影响。
在IBM Research AI Hardware Center的支持下,研究团队发现,尽管 PCM 表现出与电导相关的温度敏感性,但电导状态的归一化分布在所应用的时间-温度曲线中保持相对恒定。研究人员开发了一个可靠的统计模型来捕捉温度对漂移和电导的影响,并根据 PCM 电导测量对其进行验证。
他们使用超过一百万个 PCM 设备证明,使用简单的补偿方案可以在 33 到 80 摄氏度的环境温度变化下为各种网络实现并保持高推理精度。
模仿人脑
另一个超越内存计算的热门研究领域是创建更符合人脑的神经网络。由刘明代表中科院微电子研究所和复旦大学的许多研究人员介绍的基于 ReRAM 的类脑计算 (BIC) 的工作正在受到前所未有的人工智能计算使用速度的推动,刘说,每三个月翻一番。
BIC 将在中长期规避冯诺依曼瓶颈。(图片由中国科学院中国微电子研究所提供)
人工智能计算的使用增加使得受大脑启发的硬件对于维持发展至关重要。虽然新的内存技术可以在短期内增强现有的层次结构,但 BIC 将在中长期规避冯诺依曼瓶颈;BIC 包括内存计算和神经形态计算。
理解 BIC 需要区分 AI 的算法:计算机科学的神经网络与生物学和神经科学的神经网络。人工神经网络 (ANN) 处理空间域中的连续信号,而尖峰神经网络 (SNN) 更具生物可能性,因为它模仿了大脑的工作方式。刘说,ReRAM 为 BIC 提供了一个理想的平台,因为它具有丰富的开关动态,可以支持大规模集成、低功耗外围设备和用于构建 BIC 芯片和系统的特定应用架构。
刘说,在许多其他机构从模拟行为开始进行了十多年的研究之后,很快,集成的 SNN 多核将成为可能。ReRAM SNN 的计算密度和能效为高性能提供了巨大潜力,将事件驱动表示和集成多核相结合的芯片将成为现实。然而,要开发适用于实际应用的 BIC 芯片,在架构层面仍有许多探索工作要做。
ReRAM的特性使其成为人工智能和旨在模仿人脑的应用程序的热门候选者。但是 IEDM 在 IEDM 2021 上通过一整天的会议和两次 IEEE 磁性学会活动对磁阻随机存取存储器给予了同样多的关注,以表彰微电子学和磁学界之间的关系以推动进步。
在铁电随机存取存储器 (FRAM) 方面,CEA-Leti 宣布了它声称的世界上第一个 130nm 节点 16-kbit 阵列的演示,使其更接近商业化。超低功耗、快速、高耐用性和 CMOS 兼容的 BEOL FRAM 存储器使用一种新的基于 HfO2 的铁电材料,该材料也比 PZT 更环保,因为它是无铅的。
潜在用例包括嵌入式应用程序,例如物联网 (IoT) 设备和可穿戴设备。这项工作得到了欧盟 3eFERRO 联盟项目的支持,该项目旨在生产新的铁电材料,使 FRAM 成为物联网应用中具有竞争力的非易失性存储器候选者。
尽管许多 IEDM 研究论文倾向于在人工智能、神经形态计算和内存计算等前沿应用中使用新兴存储器,但推进现有存储器(如动态随机存取存储器)仍然是许多研究人员的重点。
英特尔通过 IEDM 活动发表了多篇论文,其中涵盖了规模改进和为芯片带来新功能的内容。英特尔的组件研究概述了围绕混合键合互连的设计、工艺和组装挑战所做的努力,提出了将封装互连密度提高 10 倍以上的愿景。在此之前,英特尔在 7 月宣布推出 Foveros Direct,它支持亚 10 微米的凸块间距,为 3D 堆叠的互连密度提供了一个数量级的增加。
其他论文着眼于英特尔如何通过堆叠多个 CMOS 晶体管的方法来应对预期的后 FinFET 时代,该方法旨在通过每平方毫米安装更多晶体管来实现最大 30% 到 50% 的逻辑缩放改进,以继续推进摩尔定律。推进摩尔定律的另一项努力包括即将到来的埃时代,通过研究展示了如何使用只有几个原子厚的新型材料来制造克服传统硅通道限制的晶体管——在每个芯片面积上实现数百万个晶体管。
英特尔还概述了通过在 300 毫米晶圆上集成基于 GAN 的电源开关与基于硅的 CMOS 为硅带来新功能的研究,这将实现向 CPU 的低损耗、高速供电,同时减少主板组件和空间。