最先进的嵌入式AI处理器诞生？

时间：2019-07-27 11:19:53

关键字： AI 处理器嵌入式嵌入式处理器

手机看文章

扫描二维码
随时随地手机看文章

[导读]说起人工智能好像我们想到的是机器视觉，指纹识别，人脸识别，视网膜识别，虹膜识别，掌纹识别，，自动规划，智能搜索，博弈，自动程序设计，智能控制等;然而其核心内容是离不开嵌入式的。

说起人工智能好像我们想到的是机器视觉，指纹识别，人脸识别，视网膜识别，虹膜识别，掌纹识别，，自动规划，智能搜索，博弈，自动程序设计，智能控制等;然而其核心内容是离不开嵌入式的。

移动设备上的人工智能已经不再依赖于云端连接，今年CES最热门的产品演示和最近宣布的旗舰智能手机都论证了这一观点。人工智能已经进入终端设备，并且迅速成为一个市场卖点。包括安全、隐私和响应时间在内的这些因素，使得该趋势必将继续扩大到更多的终端设备上。为了满足需求，几乎每个芯片行业的玩家都推出了不同版本、不同命名的人工智能处理器，像“深度学习引擎”、“神经处理器”、“人工智能引擎”等等。

然而，并非所有的人工智能处理器都是一样的。现实是，许多所谓的人工智能引擎就是传统的嵌入式处理器加上一个矢量向量处理单元。这里还有一些其它功能对于人工智能处理前端化至关重要。

优化嵌入式系统的工作负载

在云计算处理过程中，采用浮点计算进行训练，定点计算进行推理，从而实现最大的准确性。用大型服务器群组进行数据处理，能耗和大小必须考虑，但他们相较于有边缘约束的处理几乎是无限的。

在移动设备上，功耗、性能和面积(PPA)的可行性设计至关重要。因此在嵌入式SoC芯片上，优先采用更有效的定点计算。

当将网络从浮点转换为定点时，会不可避免地损失掉一些精度。然而正确的设计可以优化精度损失，从而达到与原始训练网络几乎相同的结果。

控制精度的方法之一是在8位和16位整数精度之间做出选择。虽然8位精度可以节省带宽和计算资源，但是许多商用的神经网络仍然需要采用16位精度以保证准确性。

神经网络的每一层都有不同的约束和冗余，因此为每一层选择更高的精度是至关重要的。

针对开发人员和SoC设计者，一个工具可以自动输出优化的图形编译器和可执行文件，例如CEVA网络生成器，从上市时间的角度来看是一个巨大的优势。

此外，保持为每一层选择更高精度(8位或16位)的灵活性也是很重要的。这使每一层都可以在优化精度和性能之间进行权衡，然后一键生成高效和精确的嵌入式网络推理。

专用硬件来处理真正的人工智能算法

VPU使用灵活，但许多常见的神经网络需要的大量带宽通道对标准处理器指令集提出了挑战。因此，必须有专门的硬件来处理这些复杂的计算。

例如NeuPro AI处理器包括专用的引擎处理矩阵乘法、完全连接层、激活层和汇聚层。这种先进的专用AI引擎结合完全可编程工作的NeuPro VPU，可以支持所有其它层类型和神经网络拓扑。