站在FPGA的肩膀上 AI可重构芯片诞生
扫描二维码
随时随地手机看文章
在芯片架构设计领域中,可重构计算技术并非一项新的存在。20世纪60年代末,加利福尼亚大学的Geraid Estrin首次提出重构计算,后过去二十余年,Xilinx才基于这一原型系统推出该技术的重要分支——FPGA架构,正式开启现代重构计算技术。
即便如此,由于此前芯片发展一直走在摩尔定律预设的方向上,FPGA始终无法进入公众的视野中,而在学术研究领域,它也一直只是芯片技术研究中少有人关注的冷门项目。不曾想,在这一波AI浪潮的推动下,可重构计算技术迅速从学术边缘走向了主流。
AI浪潮与芯片架构创新
任何技术的兴起都是市场需求、技术迭代与产业发展合力推动的结果,AI不例外,芯片的变革更是如此。
在算力需求持续增长的背景下,AI算法对芯片运算能力的要求上升到传统芯片的百倍以上,想像一下,采用了人工智能算法的AlphaGo需要用到上千块传统处理器(CPU)和上百块图形处理器(GPU)。类似,传统处理器根本无力支持智能家居、自动驾驶和智能终端等应用场景的巨大算力需求,因此基于传统CPU搭建出新的架构就显得迫在眉睫,AI芯片也就此诞生。
对于这一新兴的芯片市场,摩根大通的分析师Harlan Sur曾公开表示,到2022年为止,AI芯片市场将以每年59%的成长速度增长,届时市场规模有望达到330亿美元。
用迅猛之势来形容AI芯片产业的发展毫不为过,这一新兴事物也打破了整个市场既有的产业形态。在新兴芯片市场占据龙头地位的英伟达,其CEO黄仁勋就多次在公开场合中表示:“摩尔定律时代已经终结。”这也并非一家之言,作为摩尔定律的提出者,Intel也多次公开承认这一点。
没有摩尔定律的约束,在接下来很长一段时间内,芯片产业势必将进入自由生长状态,AI芯片产业呈现了前所未有的百花齐放。但其实深入去看,它却也被有章法的推进着。事实上,最为明显的就是,伴随着整个市场对功能的需求变化和终端的发展,GPU、ASIC等主流芯片架构技术正逐步有序得的迭代和扩大自己的市场占比。
目前,因市场对智能的实现尚处于初期,AI中关键的应用需求更偏向于训练端,因而,在训练市场中独大的GPU成为芯片市场的主流架构也就毫不奇怪。但真正的智能一定离不开逻辑推理部分。自然,作为这一功能实现的主力军,ASIC和FPGA备受业内关注,其中,热度蹭蹭上涨的FPGA可以说是格外引入注目。
FPGA热潮启示录
在AI并不火热的时间段,FPGA常年来被用作专用芯片(ASIC)的小批量替代品。因传统计算机冯·诺依曼结构的约束,比CPU甚至GPU能效更高的FPGA一直未有用武之地,直到神经网络算法的出现。
不得不说,从初入商用市场到独立成产品,FPGA架构技术似乎从未和AI算法分离开过,硬件上的节点与算法的神经元结构形成天然的呼应,颇有天造地设的意味。
如所料,FPGA最早一出现就伴随着神经网络算法研究,2011年,Altera推出OpenCL,其中的CNN算法研究就是基于FPGA的,这让FPGA重回了人们的视野中;后时隔三年,微软推出Catapult项目,开发了高吞吐CNN FPGA加速器,将这种架构更紧密的与神经网络算法实现绑在了一起;2015年,陷入转型焦虑的Intel直接选择收购Altera,这一举动后来甚至带起了一波CPU+FPGA热,但这一刻FPGA的魅力还没有真正被展现出来。直到一年后,Intel终利用BP算法在FPGA上实现了5GOPS处理能力,这一架构的优势终锋芒初现。
一步一步,伴随着深度学习的应用和渗透,FPGA架构技术也越来越受各芯片厂商关注,在多次大会的行业交流中,多位芯片研发人员都指出:综合考虑成本、可行性等因素,在可见的未来里,架构创新是唯一算力提升解决方案。而FPGA无疑为整个行业带来架构设计上的新思路。
第一次,FPGA被用于产品端是在iPhone 7上,苹果集成了Lattice iCE40 FPGA,将其作为超低功耗的逻辑处理兼传感器部件。从技术到产品端,这一技术架构只用了短短七年,而苹果的成功尝试也为这一技术架构加分不少。现在,业内人士也普遍将它列为旧有半导体甚至终端架构的关键颠覆者,也因此,FPGA这七年的持续热度给出了整个行业的风向标:半导体架构进入了新的征程,尤其为AI芯片的设计提供了关键思路。
站在FPGA的肩膀上,可重构芯片诞生
对于AI芯片的优势,寒武纪陈天石曾这样形象的描述道:“如果把深度学习看作切肉,传统的处理器就是瑞士军刀,我们的专用神经网络处理器则相当于菜刀。瑞士军刀通用性很好,什么都可以干,但干得不快,菜刀是专门用来做饭的,在切肉这件事情上,效率当然更高。”
按理,效率越高,算力越高,芯片产业发展应当重回到此前活跃增长的阶段,但在近两年整个产业却出现了一种怪象:芯片产业进入了一种低效的繁荣状态,现有的AI产品的数量只有两位数,而单价几乎不变,尤其是AI终端产品,产业利润几乎在个位数。在产业链端,产品开发费用、产品难度都在持续上升,在市场空间有限的条件下,产品的盈利空间直线下降。
事实上,仅仅融合FPGA架构设计的高效对整个产业的发展来说是依然不够的,菜刀终究还是菜刀,AI芯片的应用场景和变现能力实在十分有限。对此,清华大学微电子所所长魏少军就直接点出:“要想让AI芯片能够在使用中变得更‘聪明’,架构创新就是它不可回避的课题。”
产业端,为了打破这一现状,地平线、寒武纪、Arm等众多新老玩家纷纷给出了各自的平台性商用解决方案,但终不是长久之计。对此,业内的共同认知是:若想釜底抽薪,设计出一款动态可重构的并行计算芯片,以实现一块芯片可以跑多种算法,节省资源,大大提高通用性,极大程度上促进整个产业的发展。
所幸,在国内,目前尚有两款芯片代表:一款是清华大学的Thinker可重构AI芯片,它获得了2017年国际低功耗电子与设计会议设计竞赛奖,这是一款由65nm工艺制成的芯片,不过其峰值性能能够达到410GOPS,能效达5TOPS/W。第二款是南京大学RAPS可重构芯片,它由40nm工艺制成,可以实现25种与信号处理有关的算法,峰值性能69GFLOPS,能效达到32GFOPS/W。与TMS320C6672多核DSP比较,性能能够提高一个数量级。
值得一提的是,两款芯片制程一般,工艺泛泛,却收获如此高效的性能,架构创新的四两拨千斤功效可见一斑。
最后
纵观第三波AI浪潮下的半导体产业,有两个现象级事件奠定了当下芯片产业的基调:曾经逃离半导体行业的风投又纷纷重新回到了半导体行业;历来观潮的中国,现在成了弄潮儿。
不言而喻,这两大趋势撞在一起发生的化学效应率先打破了整个半导体行业既有的产业形态。但不可忽视的是,作为工业的粮食,芯片架构创新带动的产业活力才将成为推动第三波AI浪潮持久发展的动力。
如许衍居院士所言:未来10年,整个半导体产业将会从cSoC时代走向rSoC时代。但是可重构芯片发展还需要突破众多难关,如基于可重构计算搭建的硬件平台是需要搭建一个统一的标准平台还是仅仅只开发一个通用的编程模型?采用双编程如何划分软硬件任务并处理好之间的通信问题?这些问题依旧是缠绕在可重构芯片发展之路上的藤蔓,披荆斩棘,路且漫长。