英特尔没输!将用这些重磅技术“渡劫”!
扫描二维码
随时随地手机看文章
自从英特尔2020年Q2财报中证实,7nm发布日期延期半年,量产推迟近一年后,业界对于英特尔的讨论的声音越来越大,一方面,交火目标集中在14nm和10nm的制程更替不符合 “Tick-Tock”的规律;另一方面,竞争对手不断压缩制程精度的数字大小,从数字上来看Intel的比竞争对手大。
作为称霸半导体各大榜单的“老大”,其实这半年过的很辛苦,从股价被反超再到有人质疑IDM模式,许多应当凭心对比整财年营收、净利或从整体分析的点,都被无限放大,并被人称“英特尔输了”。
事实上,延期背后其实还潜藏着更令人期待的革新。就在昨夜,英特尔放出大招,在2020年架构日上公布下一代“Tiger Lake”将用到升级版的10nm SuperFin技术,并顺势发布了1个全新封装技术和5个全新架构和配套软件革新!
英特尔真的如大家分析的一样远远甩到后排去了吗?21ic家今天来详细剖析一下业界较为集中交火的几个点。
01
英特尔到底发布了哪些重磅产品?
作为IDM厂商,最大的优势便是能够一条线生产“产业链”的所有器件,而扎根于英特尔的“六大技术支柱”:制程和封装、架构、内存和存储、互连、安全、软件。
也就是说,与数据处理相关的所有器件都被英特尔承包了,越来越讲求整体协同的半导体行业,整套的方案必然能发挥出更加出色的性能,毕竟“没有人比我更懂我自己”。
“六大技术支柱”也是本次发布会围绕的重点,具体发布的技术为:
1、制程:10nm SuperFin技术
这是一项可以完美媲美制程节点转换的技术,是一项从通道到互连的整个过程堆栈的创新,是英特尔增强型FinFET晶体管与Super MIM(Metal-Insulator-Metal)电容器的结合,将用于“Tiger Lake”的英特尔下一代移动处理器中。
值得一提的是,Tiger Lake正在生产中,OEM的产品将在假日季上市。
图1:SuperFin和Tiger Lake相辅相成
2、封装:“混合模式”测试芯片
当今大多数封装技术中使用的是传统的“热压结合(thermocompression bonding)”技术,混合结合是这一技术的替代品。
之前21ic家也曾经介绍过英特尔封装的两“巨星”:其一是,EMIB、Foveros和两个技术相结合的Co-EMIB技术,主要是将超过两个不同的裸片进行水平或垂直方向的叠加;另一个便是全方位互连技术(ODI),该技术可以为上下两片裸片协调做到面积统一。
如今英特尔最新发布的“混合模式”这项新技术,能够加速实现10微米及以下的凸点间距,提供更高的互连密度、带宽和更低的功率。
使用“混合结合(Hybrid bonding)”技术的测试芯片已在2020年第二季度流片。
图2:英特尔封装技术路线图
3、架构:CPU+独立GPU+FPGA+AI加速器
① Willow Cove架构:
这项架构主要针对的是最新处理器技术和10nm SuperFin技术,是英特尔的下一代CPU微架构,在Sunny Cove架构的基础上,提供超越代间CPU性能的提高,极大地提升了频率以及功率效率。
值得注意的是,这一架构重新设计了缓存体系结构,引入到了更大的非相容1.25MB MLC中,并通过英特尔控制流强制技术(Control Flow Enforcement Technology)增强了安全性。
从结构上看,通过保持低延迟的双环微架构、50%的LLC增加到非Cache,光纤的相干带宽增加了2倍以上;从内存上看,双存储子系统和高达86GB/s的内存带宽增加了整个内存子系统的可用带宽,支持LP4x-4267、DDR4-3200,最高支持LP5-5400体系结构,另外英特尔®总内存加密技术可抵御硬件攻击。
图3:Willow Cove架构
图4:Willow Cove架构的结构和内存
② Tiger Lake CPU架构:
最新架构Tiger Lake最大的亮点就是,它是第一个SoC架构中采用全新 Xe-LP图形微架构。得益于此,可以对CPU、AI加速器进行优化,将使CPU性能得到超越一代的提升,并实现大规模的AI性能提升、图形性能巨大飞跃,以及整个SoC 中一整套顶级 IP,如全新集成的Thunderbolt 4。
图5:Tiger Lake的结构和内存
③ 混合架构:
Alder Lake是英特尔的下一代采用混合架构的客户端产品。Alder Lake将结合英特尔即将推出的两种架构——Golden Cove和Gracemont,并将进行优化,以提供出色的效能功耗比。
④ Xe 图形架构
Xe图形架构系列产品便是英特尔最新推出的独立显卡所使用的架构,目前首款基于Xe架构的独立图形显卡DG1已投产,并有望按计划于2020年开始交付;而首款针对数据中心的显卡SG1(Server GPU)很快将会投产,并在今年晚些时候发货,是4个DG1的聚合。
独立显卡Xe架构一共有三种定位:
● Xe-LP(低功耗):定位为PC和移动平台最高效架构,DG1便是基于此种架构。最高配置EU单元多达96组,新架构设计上包括异步计算、视图实例化、采样器反馈、带有AV1的更新版媒体引擎以及更新版显示引擎等;在软件优化方面,将通过新的DX11路径和优化的编译器对驱动进行改进。
● Xe-HP:定位为数据中心级、机架级媒体性能架构,能够提供GPU可扩展性和AI优化,Xe HP将于明年推出。涵盖了从一个区块(tile)到两个和四个区块的动态范围的计算,其功能类似于多核GPU。
● Xe-HPG:定位为专用于游戏优化的微架构,Xe-HPG预计将于2021年开始发货。技术参数上,添加了GDDR6的新内存子系统提高性价比,支持光线追踪。是利用Xe-HP的扩展性,结合了Xe-LP的微架构变体。
图6:Xe架构中三种微架构
⑤ 数据中心架构
包括Ice Lake、Sapphire Rapids、224G-PAM4 TX收发器。
● Ice Lake是首款基于10nm的英特尔至强可扩展处理器,预期将于2020年底推出。
● Sapphire Rapids是英特尔基于增强型SuperFin技术的下一代至强可扩展处理器,将提供领先的行业标准技术,包括DDR5、PCIe Gen 5、Compute Express Link 1.1等,预计将于2021年下半年开始首批生产发货。
● 英特尔现在拥有世界上第一台下一代224G-PAM4 TX收发器,展现了其在先进FPGA技术上的不断创新和连续三代收发器领域的领先地位。
4、软件:oneAPI Gold版本
oneAPI Gold版本将于今年晚些时候推出,为开发人员提供在标量、矢量、距阵和空间体系结构上保证产品级别的质量和性能的解决方案。英特尔于7月发布了其第八版的oneAPI Beta,为分布式数据分析带来了新的功能和提升,包括渲染性能、性能分析以及视频和线程文库。 DG1独立GPU当前在英特尔®DevCloud上可供部分开发人员使用,其中包含DG1文库和工具包,来使他们能够在拥有硬件之前就开始使用oneAPI编写DG1相关的软件。
图7:oneAPI 整体框架
02
仍然是围绕数据进行创新
上文也有提及在先进制程上的两大交火点,诚然,先进制程数字做的越来越好看,也是先进的一种表现,但英特尔所考虑的方向并非如此。
为何自从14nm后,便没有遵循“Tick-Tock”规律?根据英特尔的解释,在技术升级上,英特尔考虑的是市场的用量和数据的需求量。现如今,在5G、AIoT以及数据中心的高速发展下,数据量到2025年会暴增到175ZB,市场需求的并不是单一节点的制程升级,而是XPU+存储+先进封装+的一整套数据解决方案。
这种数据解决方案也就照应了英特尔之前反复强调的:“英特尔早已不再只是一家以PC为中心的公司,而是转变为以数据为中心的公司。”
21ic家认为,一味较真制程精度数字大小并不是评判性能的唯一标准,英特尔的IDM模式的优势在于整套系统发挥的性能。
单拿最新的Tiger Lake这一SoC架构来说,高达112Gbps的先进封装技术、媲美节点转换的10nm SuperFin技术、高达96个执行单元的Xe图形架构、约86GB/s内存带宽、高斯网络加速器GNA 2.0专用IP、CPU上集成PCIe Gen 4……这些统统都放在一个SoC架构中,单做加法就早已远超同级产品水平,何况这种架构还进一步突破了性能。
除此之外,无论是性能上来讲,还是从稳定性、适配性、更替性上来说,一整套方案都具有天生的优势。另外,整套系统的协同作战还有一个好处,即开发者可用一套软件一站开发,这便是oneAPI,随着版本更迭至Gold,全新架构也都被囊括其中。
当然,这也不是说制程节点就没有必要发展了,接下来就剖析一下英特尔最新发布的SuperFin技术。
03
反复打磨的精品10nm制程
时下先进制程技术方面,使用的均为FinFET(Field-effect transistor)技术,7nm是FinFET的物理极限,但得益于深紫外(DUV)和极紫外(EUV),制程得以突破7nm、5nm,另外台积电还表示,决定仍让3nm制程维持FinFET架构。
而从3nm切换2nm这个阶段,由于晶体管沟道进一步缩短,FinFET结构将会遭遇量子隧穿效应的限制。业界普遍认为GAA-FET(gate-all-around Field-Effect Transistor)将会是3nm FinFET之后的路。
不过在这一过程中,FinFET其实在技术上仍然有完善的空间,且不说要到2nm阶段才要转向新的设计,何况早有证实,英特尔10nm性能与台积电7nm性能相当。在技术加持下,英特尔的10nm SuperFin性能或许比想象中还要更强大。
SuperFin其实是两种技术的叠加,即Super MIM(Metal-Insulator-Metal)电容器+增强型FinFET晶体。
从参数上来看,增强型FinFET拥有M0和M1处关键层0.51倍的密度缩放、单元更小晶体密度更高、通孔电阻降低2倍、最低的两个金属层提高5-10倍电迁移。
图8:FinFET的革新
而在Super MIM方面,使用新型薄壁阻隔将过孔电阻降低了30%,从而提升了互连性能表现;与行业标准相比,在同等的占位面积内电容增加了5倍,从而减少了电压下降,显著提高了产品性能。 该技术由一类新型的“高K”( Hi-K)电介质材料实现,该材料可以堆叠在厚度仅为几埃厚的超薄层中,从而形成重复的“超晶格”结构。 这是一项行业内领先的技术,领先于其他芯片制造商的现有能力。
图9:SuperMIM技术被应用
事实上,2011年起Intel便率先在第三代酷睿处理器上使用22nm FinFET,引导FinFET成为主流。不难发现,英特尔继续推进FinFET技术改良,反复打磨10nm制程,保证在这一制程节点取胜后再稳步进入下一制程节点。
但仍需注意的是,制程在命名之中也存在一些“猫腻”,这被行业人士称之为“纳米游戏”。2017年,Intel时任工艺架构和集成总监Mark Bohr便发文呼吁晶圆厂商们要建立一套统一的规则来给先进的制程命名,需要注意的是Mark Bohr还是电气与电子工程师协会(IEEE)的院士,并荣获2012年IEEE的西泽润一奖和2003年IEEE的安迪·格鲁夫奖。
简单来说,代工厂的纳米节点命名和英特尔所命名的并不能直接进行比较。20世纪60年代到90年代末,制程节点指的还是栅极长度,但其实从1997年开始,栅极长度和半节距就不再与过程节点名称匹配,之后的制程节点只是代表着摩尔定律所指的晶体管密度翻倍。
很多情况下,即使晶体管密度增加很少,仍然会为自己制程工艺命名新名,但实际上并没有位于摩尔定律曲线的正确位置。
实际上,英特尔确实在2017年引入了晶体管每平方毫米以及SRAM单元尺寸作为客观的对比指标,台积电7nm为90 MTr/mm2,而英特尔的10nm为100 MTr/mm2,这也就能解释为什么英特尔的10nm和7nm性能相当。
台积电营销负责人Godfrey Cheng其实曾经也亲口承认,从0.35微米开始,工艺数字代表的就不再是物理尺度,而7nm/N7只是一种行业标准化的属于而已,此后还会有N5等说法。同时,他表示也确实需要寻找一种新的语言来对工艺节点进行描述。
但从另一个角度来说,在引入SuperFin技术之前,英特尔10nm技术便与台积电7nm性能相当,所以大胆猜测在引用这项技术之后,或许能够媲美6nm也不是不可能。而这项搭载这项技术的Tiger Lake正在生产中,OEM的产品将在假日季上市,所以说英特尔其实在制程上并没有落后。
04
从整个生态上来讲
摩尔定律是英特尔的创始人之一戈登·摩尔提出的,当时的理论是每隔18-24个月晶体管数量将增加一倍,而随着技术发展这一发展似乎逐渐放缓;而时至2000年,登纳德缩放比例定律(Dennard scaling)逐渐进入瓶颈,频率很难再进一步改善,此时所有CPU和计算机最多只能到达2~4Ghz的速度,并且维持了10年之久仍未有提升;为提升应用性能,后使用多核CPU,使得问题从硬件转向软件,但由于阿达姆尔定律,效能功率没有办法进一步提升。
到这种境地之下,到底有什么方法“渡劫”?事实上摩尔在提出摩尔定律之时,也提出了在摩尔定律接近物理极限时要转向异构计算。
这也便引申了上文的话题,英特尔面向的一直是数据,实际上单单通过制程精度已然不是增加计算速度最快的方法。
通过英特尔近几年集中发布的新品也不难发现,这几年英特尔反而更贴近FPGA、eASIC、ASIC、AI加速器、独立GPU,而这些恰恰是异构计算中不可或缺的一部分。联结这一切的软件生态,便是oneAPI。
最简单的证明方法就是用一张图来概括如今的英特尔,无论是从营收上逐步靠拢数据业务,还是从整个生态上来讲,英特尔对于数据的整体方案上重视程度越来越高了:
图10:英特尔的六大支柱和各项技术
从英特尔角度来看客户,客户自80年代开始,逐步追求数字化、联网化、移动化、云端化,而未来客户2.0追求的则是沉浸式体验的智能化,这催生了IP/SoC方法论的变更。
过去,单片的SoC开发3-4年,硅片中可以发现数百个错误并且不可重复使用,而通过转变为多个裸片的互连和IP相结合的方式,不仅缩短了研发时间、减少错误率,可复用性也逐渐成为现今最佳的方式。
而这也正是英特尔目前强调的方向,种种优势这也足以说明建立强大生态才是时下最应做好的事情。
图11:IP/SoC方法论正在改变
文行至此,仍需强调,英特尔在制程方面的演进还是跟随市场的需求,其着眼的关键点仍然是整体的生态和良好整体数据处理能力。绕回制程来说,在架构和技术的支持下,英特尔的10nm也远比想象中强大的多,最终的评判标准仍然需要从整套发挥的性能上来讲。