专用DSP核心助阵 SoC支持AI算法非难事
扫描二维码
随时随地手机看文章
虽然英特尔(Intel)、NVIDIA等芯片大厂近期在人工智能(AI)、神经网络(NN)、深度学习(Deep Learning)等领域动作频频,但半导体领域的其他业者也没闲着,而且其产品发展策略颇有以乡村包围城市的味道。 益华计算机(Cadence)旗下的CPU/DSP处理器核心授权公司Tensilica,近期便发表针对神经网络算法设计的C5 DSP核心授权方案。 在16奈米制程条件下,该核心所占用的芯片面积约仅1平方公厘,却可提供达到1TMAC的运算效能,而且功耗远比CPU、GPU等处理器更低,适合各种嵌入式运算装置使用。
Cadence Tensilica营销资深事业群总监Steve Roddy表示,神经网络技术正以飞快的速度演进。 根据该公司所收集的数据显示,在2012~2015年间,每几个月就有新的神经网络算法问世,且复杂度均比先前的算法明显增加。 在短短3年内,神经网络算法的复杂度已增加16倍,远超过摩尔定律的发展速度。
也由于神经网络算法演进的速度比半导体技术进步的速度还快,因此神经网络算法的开发者只能用内建更多处理器核心的硬件来执行新的算法。 但这种作法只能在云端数据中心行得通,无法适用于功耗、体积与成本均受到严格限制的嵌入式装置。
另一方面,目前神经网络算法大多在通用型CPU、GPU芯片上执行,也是一种迁就于现实的结果。 CPU、GPU是已经大量生产的芯片,取得容易且成本远比自己打造ASIC来得低,而且对算法开发者来说,CPU跟GPU提供很好的编程环境与应用设计灵活性,这也是ASIC所比不上的。
事实上,Tensilica也认为,利用硬件加速器这类ASIC来执行神经网络算法,绝对是一条行不通的路。 因为ASIC设计通常需要数个月到1年时间,至于芯片要大量生产,应用在终端产品上,更常已是2~3年后的事。 在神经网络发展日新月异的情况下,除非芯片设计者拥有未卜先知的能力,精准预测出3年后神经网络算法会发展到何种地步,否则芯片开发者的产品可能还没上市就已经过时了。
除了产品开发时程的问题,单纯从技术层面来看,用硬件加速器与通用处理器共同执行神经网络算法,也是问题重重。 由于神经网络会牵涉到大量数据传输,若要将运算工作切割开来,用两颗芯片共同执行,则两颗芯片间光是数据传输,便很可能会占用掉一大半处理器资源,并带来可观的功耗量。
因此,如果有一种针对神经网络算法优化的处理器核心,既能兼顾应用设计灵活性,又比通用型CPU、GPU有更高的算法执行效率,对于神经网络的普及应用,将是一大加分。 这也是Tensilica决定推出专为神经网络算法设计的C5数字信号处理器(DSP)核心的原因。
C5 DSP核心在16奈米制程条件下所占用的芯片面积为1平方公厘,能提供达1TMAC的乘法器效能给神经网络算法使用。 若应用需要更高的乘法器效能,C5 DSP也允许SoC设计者采取多核心架构。 而且,因为C5 DSP是针对神经网络运算优化的核心,因此功耗极低,不会像CPU或GPU,芯片功耗动辄数十瓦以上,甚至上百瓦,一般的嵌入式装置也能轻松采用。
Roddy透露,虽然C5 DSP核心才刚正式发布不久,但早已有先导客户正在利用C5 DSP核心开发下一代支持神经网络算法的SoC。 据其预估,最早在2017年第3季,第一颗内建C5 DSP核心的SoC产品就会Tape Out。