用于可扩展和节能 AI 的基于忆阻器交叉开关的学习系统
扫描二维码
随时随地手机看文章
得克萨斯 A&M 大学、Rain Neuromorphics 和桑迪亚国家实验室的研究人员最近设计了一种新系统,可以更有效地更大规模地训练深度学习模型。该系统在Nature Electronics上发表的一篇论文中介绍,它依赖于使用新的训练算法和忆阻器交叉开关硬件,可以同时执行多项操作。
“大多数人将 AI 与智能手表的健康监测、智能手机的人脸识别等联系起来,但就消耗的能量而言,大多数 AI 都需要训练 AI 模型来执行这些任务,”资深作者 Suhas Kumar 说道。这项研究告诉 TechXplore。
“训练发生在仓库大小的数据中心,这在经济和碳足迹方面都非常昂贵。只有经过充分训练的模型才会下载到我们的低功耗设备上。”
从本质上讲,Kumar 和他的同事着手设计一种方法,可以减少与 AI 模型培训相关的碳足迹和财务成本,从而使其大规模实施更容易、更可持续。为此,他们必须克服当前 AI 培训实践的两个关键限制。
这些挑战中的第一个与使用基于图形处理单元 (GPU) 的低效硬件系统有关,这些系统本身并不是为运行和训练深度学习模型而设计的。第二种需要使用低效且数学运算量大的软件工具,特别是利用所谓的反向传播算法。
“我们的目标是使用新硬件和新算法,”Kumar 解释道。“我们利用了之前 15 年在基于忆阻器的硬件(GPU 的高度并行替代方案)方面的工作,以及类脑高效算法(一种非反向传播局部学习技术)的最新进展。尽管硬件和软件方面的进步之前已经存在,我们对它们进行了代码设计,使其能够相互协作,从而实现非常高效的 AI 训练。”
深度神经网络的训练需要不断调整其配置,包括所谓的“权重”,以确保它能够以更高的准确性识别数据中的模式。这种适应过程需要大量的乘法运算,而传统的数字处理器很难有效地执行这些运算,因为它们需要从单独的存储单元中获取与重量相关的信息。
“今天几乎所有的训练都是使用反向传播算法进行的,该算法采用大量数据移动和求解数学方程式,因此适用于数字处理器,”该研究的主要作者 Suin Yi 告诉 TechXplore。
“作为一种硬件解决方案,近十年来出现的模拟忆阻器交叉开关能够将突触权重嵌入到计算发生的同一位置,从而最大限度地减少数据移动。但是,传统的反向传播算法适用于高精度数字硬件,由于硬件噪声、错误和精度有限,与忆阻器交叉开关不兼容。”
由于传统的反向传播算法不太适合他们设想的系统,Kumar、Yi 和他们的同事开发了一种新的共同优化学习算法,该算法利用了忆阻器交叉开关的硬件并行性。该算法的灵感来自于神经科学研究中观察到的神经元活动差异,它容错并复制了大脑的学习能力,甚至可以从稀疏、定义不明确和“嘈杂”的信息中学习。
“我们的算法-硬件系统研究了神经网络中合成神经元在两种不同条件下的不同行为方式的差异:一种是允许它以自由方式产生任何输出,另一种是我们强制输出成为目标我们想要识别的模式,”易解释道。
“通过研究系统响应之间的差异,我们可以预测使系统得出正确答案所需的权重,而无需强迫它。换句话说,我们避免了复杂的数学方程反向传播,使过程更具噪声弹性,并启用本地培训,这就是大脑学习新任务的方式。”
因此,作为本研究的一部分而开发的受大脑启发且与模拟硬件兼容的算法最终可以在具有小电池的边缘设备中实现 AI 的节能实施,从而消除对消耗大量电力的大型云服务器的需求。这最终可能有助于使深度学习算法的大规模训练变得更加实惠和可持续。
“我们用来训练神经网络的算法结合了深度学习和神经科学的一些最佳方面,以创建一个可以使用低精度设备非常有效地学习的系统,”该论文的另一位作者 Jack Kendall 告诉 TechXplore。
“这有很多意义。首先是,使用我们的方法,可以将目前太大而无法部署的 AI 模型制作成适合手机、智能手表和其他不受限制的设备。另一个是这些网络现在可以学习——即时,在部署时,例如考虑不断变化的环境,或将用户数据保存在本地(避免将其发送到云端进行培训)。”
在初步评估中,Kumar、Yi、Kendall 和他们的同事 Stanley Williams 表明,与当今市场上最好的 GPU 相比,他们的方法可以将与 AI 训练相关的功耗降低多达 100,000 倍。未来,它可以将海量数据中心转移到用户的个人设备上,减少与人工智能训练相关的碳足迹,并促进更多支持或简化人类日常活动的人工神经网络的发展。
“我们接下来计划研究这些系统如何扩展到更大的网络和更困难的任务,”肯德尔补充道。“我们还计划研究各种用于训练深度神经网络的类脑学习算法,并找出其中哪些算法在不同的网络和不同的硬件资源限制下表现更好。我们相信这不仅会帮助我们了解如何在资源受限的环境中最好地进行学习,但它也可以帮助我们了解生物大脑如何能够以如此令人难以置信的效率学习。”