FPGA“独孤求败”? 架构创新与工艺提升并行
扫描二维码
随时随地手机看文章
走在工艺领先前列的FPGA有些“独孤求败”的感觉:集成度的大幅跃升,功能模块如DSP、收发器的更上台阶,通过集成ARM核来拓展未曾染指的嵌入式市场,加快替代ASIC/ASSP之势不减,似乎已经“笑傲江湖”。但此FPGA终究非彼FPGA,仍存在难以逾越的“关卡”如功耗、器件利用率等。如今,赛灵思宣布在20nm工艺节点发布第一个ASIC级可编程架构UltraScale,以前FPGA对ASIC的侵袭之势不减,这次为何“化干戈为玉帛”走向融合?
ASIC级势在必行
大量总线布置以及系统功耗管理方面的挑战与日俱增,要从根本上提高通信、时钟、关键路径以及互联性能。
随着需要极高数据速率的400G OTN、LTE/LTE-A、4K2K和8K视频处理以及数字阵列雷达等新生代系统的不断涌现,FPGA中大量总线布置以及系统功耗管理方面的挑战与日俱增,单靠FPGA的传统“做法”已然心力不逮。
赛灵思全球高级副总裁汤立人说,解决上述挑战并非仅是改善单个器件性能或增加模块数量这么简单,而是要从根本上提高通信、时钟、关键路径以及互联性能,才可满足高性能应用如海量数据流和智能数据包、DSP和图像处理等方面的要求,这需要架构和工艺的双重创新来应对。而借助ASIC源于“他山之石可以攻玉”的想法,赛灵思最新开发的UltraScale架构实现了在完全可编程架构中应用尖端的ASIC技术,从而让产品在功耗等性能方面拉近和ASIC产品的距离,而这是此前FPGA产品进入原有ASIC市场的最大障碍。
借助于台积电的20nm工艺,也让赛灵思的FPGA架构创新有了“立锥之地”。汤立人提到,最新开发的UltraScale架构能从20nm平面FET结构扩展至16nm鳍式FET晶体管技术甚至更高的技术,同时还能从单芯片扩展到3D IC。“当客户采用UltraScale架构的FPGA,并通过Vivado设计套件进行协同优化后,其产品将比对手提前一年实现1.5倍至2倍的系统级性能和可编程集成,将进一步加快替代ASIC/ASSP。” 汤立人指出。
基于UltraScale架构的产品首先推出的是Artix和Virtex系列,与之配合的Vivado设计套件早期试用版也已推出,同时UltraScale架构也将用于下一代的Zynq系列并将扩展到16nm工艺的产品。
优化方案破解瓶颈
在布线、时钟歪斜、关键路径和功耗方面,采用各种优化手段,实现ASIC级的FPGA。
将ASIC融合到FPGA中并不是轻而易举的事,要创建逻辑、运行验证、设计分区等,赛灵思通过各种优化手段来“各个击破”。
在布线方面,汤立人透露,虽然在28nm工艺下FPGA产品可达到数十万甚至上百万的逻辑单元,但因为普遍存在的数据拥塞等问题,实际的器件利用率只能达到70%~80%。在最新的UltraScale架构中,赛灵思采用了一种更智能的布线方式,引入类似高速公路设计中的快速通道理念,通过对整体逻辑单元的更合理布局形成一些快速通道,减少了对很多作为中间布线通道的逻辑单元的浪费,从而让更多的逻辑单元能够发挥更重要的系统功能的作用。“经这种布线优化后,器件利用率可达到90%,且不降低性能或增加系统时延。”汤立人指出。
而时钟歪斜问题在系统需要512位到2048位宽度的总线时越发凸显。而UltraScale架构采用类似ASIC时钟功能,几乎可将时钟布置到芯片的任何地方,不但消除了放置方面的众多限制,还能够在系统设计中实现大量独立的高性能低歪斜时钟资源,使系统级时钟歪斜大幅降低达50%,而这正是新一代应用的关键要求之一。
在关键路径方面,赛灵思的UltraScale架构更是“大费周章”,在优化方面所做的工作包括:大幅增强DSP处理,即增加DSP单元;提供高速存储器级互联,从而消除DSP和包处理中的瓶颈问题,即互联性,也避免使用更多片上布线或逻辑资源;将高强度I/O功能做硬化IP处理,基于现有I/O功能相对完善不需要占用编程资源,这样的做法可以降低时延同时释放逻辑和布线资源。
在业界广受关注的功耗方面,赛灵思也做足功课。汤立人表示,赛灵思采用20nm工艺的产品较上一代的产品静态功耗将降低35%,动态功耗也大大降低。而单纯工艺节点的降低达不到这么显着的效果,赛灵思通过一系列电源管理功能的优化才得以实现。
工艺与架构创新并进
FPGA单纯靠工艺进步提升性能已是“过去时”,现在是工艺提升和架构创新“齐头并进”的时代。
赛灵思的ASIC级FPGA成为彰显其20nm工艺创新的“点晴”之笔,FPGA另一巨头Altera也在这一道路上深耕,最新开发的基于英特尔14nm三栅极工艺的第10代FPGA Stratix 10就是一集大成之作。
Altera公司产品营销资深总监Patrick Dorsey介绍说,Stratix 10的性能提升归功于工艺选择和器件架构两大因素。Stratix 10集成超过400万个逻辑单元,如此高密度的集成正是因为使用了英特尔的14nm制程技术。除英特尔14nm三栅极工艺外,Stratix 10和SoC还采用了增强体系结构,其内核的工作频率能够从当前28nm FPGA的500MHz提高到1GHz,并且其还集成了第三代硬核处理器,是业界首款采用硬核处理器的FPGA,此前均为软核。
不同于Stratix 10的是Altera的中端器件Arria 10,它采用台积电的20nm工艺,Altera声称其将“重塑”中端系列FPGA。而其秘诀就是通过针对TSMC 20 nm工艺优化的增强体系结构,其性能比上一代高端产品Stratix V快15%,而且比上一代中端器件Arria V的功耗降低40%,I/O带宽高出4倍。“相比前代产品,Arria 10启动时客户的设计承诺金要高出5倍,Arria 10的早期试用客户有1000多家,其中200多家来自亚洲。” Patrick Dorsey强调说,“Altera通过最新的制程以及架构的优化,在新一代产品上实现了性能大幅提升。”
看来,FPGA单纯靠工艺进步提升性能已是“过去时”,现在是工艺提升和架构创新“齐头并进”的时代,对FPGA厂商的考验也将持续。