LeapMind发布超低功耗AI推理加速器IP“Efficiera v2版本”

时间：2021-12-01 15:32:16

关键字： LeapMind AI 集成电路

手机看文章

扫描二维码
随时随地手机看文章

[导读]根据v1版本使用记录和市场评测进一步完善，以应用于更多的实际产品

2021年11月30日 – 日本东京 – 边缘AI领域的领先标杆企业LeapMind有限公司今日公布了其正在开发和授权的超低功耗AI推理加速器IP “Efficiera” v2版本（以下简称“v2”）。LeapMind于2021年9月发布了Efficiera v2的测试版，并收到了许多公司的测试及反馈，包括SoC供应商和终端用户产品设计师。Efficiera v2预计2021年12月开始发售。

LeapMind首席执行官Soichi Matsuda表示：“去年，我们正式推出了v1的商用版本，许多公司对Efficiera进行了评测。截至2021年9月底，我们共与8家日本国内公司签署了授权协议。‘向世界传播采用机器学习的新设备’是我们根据企业理念所设定的座右铭，而我们正通过提供v1来稳步推进这一理念的落地。在未来，我们将进一步通过技术创新和产品阵容扩展，继续努力实现人工智能的普及。”

Efficiera v2根据v1的使用记录和市场评测，扩大了应用范围，在保持最小配置的电路规模基础上，可覆盖更广泛的性能范围，并应用于更多的实际产品。产品由此得到了进一步的完善。

Efficiera v2概念

LeapMind董事兼首席技术官Hiroyuki Tokunaga博士表示：“自去年发布v1以来，我们强化了设计/验证方法和开发流程，旨在‘开发世界上最节能的DNN加速器’。我们一直在开发v2，以使产品能够适用于专用集成电路（ASIC）和专用标准产品（ASSP）。我们还在开发一个深度学习方面的推理学习模型，以便将超小量化技术的优势最大化。LeapMind的最大优势就在于我们可以提供一种技术来实现双管齐下。”

Efficiera v2的主要规格与特性

在保持最小电路规模的同时，覆盖更广泛的性能范围，从而扩大应用范围。

硬件特性

● 通过多路复用MAC阵列+多核，性能可扩展至48倍

V2允许你将卷积管道中的MAC阵列数量增加到v1的3倍（可选择x1、x4），并通过提供多达4个内核的选择，进一步扩大性能的可扩展性。

● 除卷积和量化外，还可实现硬件执行跳过连接和像素嵌入

1. 跳过连接是多层卷积神经网络（CNN）中常见的一种操作。（v1中由CPU执行）

2. 像素嵌入是一种对输入数据进行量化的方法

● 资源使用方面，配置与Efficiera 1相同

1. 有些应用只因AI功能可在规模有限的FPGA器件上实现就能创造价值。

2. LeapMind分析了一个实用型深度学习模型的执行时间，并仔细选择了额外的硬件功能。

集成到SoC中

● AMBA AXI接口

● AMBA AXI interface

AMBA AXI继续被用作与外部的接口，并且当接口被视为一个黑盒子时与以前一样，易于从当前设计中迁移。

● 单时钟域

FPGA中的目标频率

● FPGA的运行频率与先前相同，虽然取决于具体设备，但预计约为150到250MHz。

1. 256 GOP/s @ 125MHz (单核)

2. 高达12 TOP/s @ 250MHz (双核)

● 以加密RTL的形式提供

B. 通过改进设计/验证方法并审查开发流程，我们确保质量不仅适用于FPGA，也适用于ASIC/ASSP。

C. 开始提供一个模型开发环境（NDK），使用户能够为Efficiera开发深度学习模型。目前为止只有LeapMind实现了这项工作。

● 为Efficiera创建超小型量化深度学习模型所需的代码和信息包

● GPU深度学习模型的开发者可立即上手使用

● 支持PyTorch和TensorFlow 2的深度学习框架

● 学习环境为一个配备GPU的Linux服务器

● 推理环境为一个配备Efficiera的设备

● 来自LeapMind的技术支持

关于EfficieraEfficiera是专用于CNN推理处理的超低功耗AI推理加速器IP。其在FPGA或ASIC设备上以电路形式运行。“超小量化”技术将量化位的比特数最小化到1-2位，将占了大部分推理处理的卷积功率和面积效率最大化，而无需先进的半导体制造工艺或特殊的单元库。通过该产品，深度学习功能可被整合至各种边缘设备中，包括家用电器等消费类电子产品，和建筑机械、监控摄像头、广播设备等工业设备，以及受制于功率、成本和散热的小型机器和机器人，这以过去的技术水平是很难实现的。