FPGA与ASIC,谁将引领移动端人工智能潮流?
扫描二维码
随时随地手机看文章
传统实现移动终端人工智能的方法是通过网络把终端数据全部传送到云端,之后在云端计算后再把结果发回移动端,例如苹果的Siri服务。然而,这样的方式会遇到几个问题。第一,使用网络传输数据会产生延迟,很可能数据计算的结果会需要等待数秒甚至数十秒才能传送回终端(使用过Prisma app处理过照片的朋友们应该深有体会)。这样一来,那些需要立刻得到计算结果的应用就不能用这种方式。例如无人机上使用的深度学习躲避障碍物算法,如果它全部在云端执行恐怕计算结果还没送回来无人机已经掉下来了。第二,一旦使用网络传送数据,那么数据就有被劫持的风险。因此,那些要求低计算延迟以及对于数据安全性非常敏感的应用就需要把人工智能算法全部在终端实现,或者至少在终端完成一些预处理运算然后再把少量运算结果(而不是大量的原始数据)传送到云端完成最终计算,这就需要移动终端硬件能够快速完成这些运算。另一方面,移动端硬件完成这些运算需要的能量又不能太多,否则电池一下就没电了(想在手机上配功耗200W+的Nvidia Pascal显卡肯定不行!)。
目前,许多公司正在积极开发能实现移动端人工智能的硬件。对于移动端人工智能硬件的实现方法,有两大流派,即FPGA派和ASIC派。FPGA流派的代表公司如Xilinx主推的Zynq平台,而ASIC流派的代表公司有Movidius。两大流派各有长短,下面让我来细细分说。
FPGA vs. ASIC
首先讲讲FPGA和ASIC的区别。FPGA全称“可编辑门阵列”(Field Programmable Gate Array),其基本原理是在FPGA芯片内集成大量的数字电路基本门电路以及存储器,而用户可以通过烧入FPGA配置文件来来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的,即用户今天可以把FPGA配置成一个微控制器MCU,明天可以编辑配置文件把同一个FPGA配置成一个音频编解码器。ASIC则是专用集成电路(ApplicaTIon-Specific Integrated Circuit),一旦设计制造完成后电路就固定了,无法再改变。
用于深度学习加速器的FPGA(Xilinx Kintex 7 Ultrascle,左)和ASIC(Movidius Myriad 2,右)
比较FPGA和ASIC就像比较乐高积木和模型。举例来说,如果你发现最近星球大战里面Yoda大师很火,想要做一个Yoda大师的玩具卖,你要怎么办呢?有两种办法,一种是用乐高积木搭,还有一种是找工厂开模定制。用乐高积木搭的话,只要设计完玩具外形后去买一套乐高积木即可。而找工厂开模的话在设计完玩具外形外你还需要做很多事情,比如玩具的材质是否会散发气味,玩具在高温下是否会融化等等,所以用乐高积木来做玩具需要的前期工作比起找工厂开模制作来说要少得多,从设计完成到能够上市所需要的时间用乐高也要快很多。FPGA和ASIC也是一样,使用FPGA只要写完Verilog代码就可以用FPGA厂商提供的工具实现硬件加速器了,而要设计ASIC则还需要做很多验证和物理设计(ESD,Package等等),需要更多的时间。如果要针对特殊场合(如军事和工业等对于可靠性要求很高的应用),ASIC则需要更多时间进行特别设计以满足需求,但是用FPGA的话可以直接买军工级的高稳定性FPGA完全不影响开发时间。但是,虽然设计时间比较短,但是乐高积木做出来的玩具比起工厂定制的玩具要粗糙(性能差)许多(下图),毕竟工厂开模是量身定制。另外,如果出货量大的话,工厂大规模生产玩具的成本会比用乐高积木做便宜许多。FPGA和ASIC也是如此,在同一时间点上用最好的工艺实现的ASIC的加速器的速度会比用同样工艺FPGA做的加速器速度快5-10倍,而且一旦量产后ASIC的成本会远远低于FPGA方案(便宜10到100倍)。
FPGA vs ASIC :积木vs 手办
当然,FPGA还有另一大特点,就是可以随时重新配置,从而在不同的场合实现不同的功能。但是,当把FPGA实现的加速器当作一个商品卖给用户时,要让用户自己去重新配置却要花一番功夫。回到用乐高积木做玩具的例子,玩具厂商可以宣称这个Yoda大师由积木搭起来,所以玩家可以把这些积木重新组合成其他角色(比如天行者路克)。但是一般玩家根本不会拆装积木,怎么办?解决方案要么是把目标市场定为精通积木的专业核心玩家,要么是在玩具后面加一个开关,一般玩家只要按一下就可以让积木自动重新组装。很显然,第二个方案需要很高的技术门槛。对于FPGA加速器来说,如果要把可重配置作为卖点,要么是卖给有能力自己开发FPGA的企业用户(如百度,微软等公司确实有在开发基于FPGA的深度学习加速器并且在不同的应用场合将FPGA配置为不同的加速器),要么是开发一套方便易用能将用户的深度学习网络转化为FPGA配置文件的编译器(深鉴等公司正在尝试)。从目前来看,即使用高端的服务器来做FPGA编译都会需要数分钟的时间,如果编译在计算能力较弱的移动终端做需要的时间就更长了。对于移动终端用户来说,如何说服他们尝试重新配置FPGA并接受长达数十分钟的时间来编译网络并配置FPGA仍然是一个问题。
小结: