英特尔的路,走宽了:颠覆性架构向极致性能出发
扫描二维码
随时随地手机看文章
从IDM到IDM 2.0,从异构计算到超异构计算,英特尔作为一家以数据为中心的企业,是唯一能够颠覆行业概念,也是唯一有底气可以重新定义概念的企业。
彼时,英特尔CEO帕特·基辛格曾言道,英特尔不仅要继续IDM,还要创造全新的IDM 2.0;那日,英特尔研究院副总裁、英特尔中国研究院院长宋继强曾谈到,英特尔不仅要发展异构计算,还要利用先进的封装互联和软件技术构建超异构计算。
日前,在2021年的英特尔架构日上,英特尔一口气放出一连串硬核产品,包括两大x86 CPU内核、两大数据中心SoC、两款独立GPU,以及变革性的客户端多核性能混合架构。
21ic家认为,这些产品不仅是对此前超异构计算的理念和技术方向给出很好的印证,也是超异构计算应对不同数据计算、传输、存储要求的最好的实例。另外,这些产品之中也无不透露着IDM2.0这一战略所释放的新动能。走向新架构,让英特尔的路越来越宽了,也让英特尔的整体格局越来越大了。
x86 CPU架构向极致性能出发
去年架构日上,英特尔也预告了混合架构、两个新内核和Alder Lake,本次发布会上预告已久的产品终于揭开面纱。
总结来说,英特尔这一次在处理器的架构上主要是通过推出能效核(E-Core)和性能核(P-Core)两个x86 CPU内核,两个内核不仅拥有各自的侧重,还可藉由两种有机组合获得更大的灵活性。
其中AlderLake这一SoC架构便是针对E-Core和P-Core的不同组合,产生多种不级别的性能、功耗、面积比(PPA)产品。
另外,为了更好让E-Core和P-Core协同工作,英特尔还推出硬件线程调度器(IntelThreadDirector)作为二者的“桥梁”。
俗话说“大小搭配,干活不累”,但仍需注意的是,这本质上是一个性能混合架构。业界此前曾有“大小核”这种架构,但英特尔的AlderLake更加注重综合性能,并称之为“PerformanceHybrid”。
通过这种全新的设计英特尔在提升性能、功耗、面积比上又多了一个维度,通过按需分配负载让性能和功耗正确分配到所需应用之上。
实际上,E-Core和P-Core不仅适用于各种架构的性能混合上,单独拿出来也是各具特色的。根据宋继强的介绍,E-Core将能效I/O的吞吐量优先考虑,能够提高处理多种任务,同时保证比较好的功耗。通过能耗比的优化目标,E-Core适用于移动笔记本到台式机不同配置不同产品。英特尔拿出E-Core与Skylake的参数对比,单线程40%能耗比提升,四线程两内核80%能耗比提升,也能看出来E-Core的能耗比优化幅度是较大的。
P-Core则是目前英特尔性能最高的一个内核架构,该核更多针计算密度较大场景,与此同时需要一些专门加速硬件配合。该核的优化级别是更高的集成密度、更高的主频、更短的计算延迟。与第11代酷睿架构(Cypress Cove内核)相比,相同频率下,P-Core在一系列工作负载上平均提升了约19%。另外,搭配专用加速硬件英特尔高级矩阵扩展(AMX),可执行矩阵乘法运算,AI加速提升约8倍。
需要注意的是,多核调度在此前多为电池使用效率的优化,而英特尔的硬件线程调度更多是从性能上进行调度。从原理上来讲,CPU硬件层级拥有很多硬件遥测功能,可以获取指令混合状态、功耗、I/O负载信息,从而进行动态自适应调整,这些参数也可回馈到操作系统内,再进一步进行动态调整。
根据宋继强的介绍,E-Core和P-Core是英特尔近十年最重大的架构进展,拥有两个内核的设计作为基础,未来可快速构建更多产品种类。这是因为其基础核和内存一致性均已做好,后续仅需在SoC架构上选择不同搭配,利用两个内核可以奠定未来十年内SoC产品架构的性能能效比产品组合。
由此可见,英特尔关注的是整体的性能提升,此前是通过制程、封装和结构上全面提升性能。上个月,帕特·基辛格宣布制程节点改为以PPA的方式进行命名,变为Intel 7、Intel 4、Intel 3、Intel 20A、Intel 18A,并围绕晶体管结构进行优化。而本次则是从架构方面着手,产品性能增强的维度继续增加。
当然,单独拿出来P-Core也是非常“能打”的,英特尔的代号为“Sapphire Rapids”的下一代英特尔至强可扩展处理器将采用P-Core和硬件加速器的组合形式呈现在业界。
至强可扩展处理器一直以来都是英特尔“亲儿子”系列,所有的先进技术都将堆叠在该产线,Sapphire Rapids也不例外,不仅采用先进的封装互连技术,先进的内存和下一代I/O,同时还采用Intel 7制程工艺技术。除此之外,全新内置三款新的加速引擎,包括英特尔®加速器接口架构指令集(AIA)、英特尔®高级矩阵扩展(AMX)、英特尔®数据流加速器(DSA)。
至强可扩展处理器一直以来都是超异构计算中标量计算的核心,如此堆料之下的新产品必然也拥有颠覆市场的能力。
独立GPU架构展开“升维打击”
事实上,英特尔并不是第一天投入独立GPU。信息显示,英特尔曾在1998年尝试开发过独立GPU,且发布第一款成品“i740AGP显卡”,但在1999年被迫停滞;而后又在2009年尝试第二代独立显卡“Larrabee",而后也被迫停滞。
从去年架构日开始,英特尔再谈独立GPU,不仅推出代号为”DG1”的GPU,还将独立GPU划分为Xe-LP(低功耗)、Xe-HP(数据中心级)、Xe-HPG(游戏微架构)、Xe-HPC(高性能计算)四个定位。
本次发布的独立显卡则是Xe-HPG微架构及其产品Alchemist SoC,Xe-HPC及其产品Ponte Vecchio。另外,还为游戏开发商推出了Xe-SS,让只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行。
Xe-HPG方面,英特尔已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,从而使计算密集型游戏的吞吐量提高了15% (至多80%),游戏加载时间缩短了25%。Xe-HPG内核包括16个矢量引擎和16个矩阵引擎,英特尔将其称XMX或Xe Matrix eXtensions。
在产品方面,基于Xe-HPG的Alchemist SoC(此前代号为DG2)将于2022年Q1上市,并采用新的品牌名英特尔锐炫(IntelARC)。值得一提的是,英特尔的Alchemist独立显卡选择了台积电的N6制程工艺。另外,英特尔还为Xe-HPG架构下产品划分路线图为Alchemist、Battlemage、Celestial、Druid。
Xe-HPC方面,据宋继强介绍,因其定位便是为了高密度计算和AI加速,所以该架构拥有全新设计,具体包括每个Xe核的8个矢量和矩阵引擎,英特尔称为XMX Xe Matrix eXtensions;切片和堆栈信息;以及包括计算、基础和Xe Link单元的处理节点的单元信息。
在产品方面,基于Xe-HPC的Ponte Vecchio提供业界领先的每秒浮点运算次数(FLOPs)和计算密度,以加速AI、HPC和高级分析工作负载。Ponte Vecchio基于Intel 7制程工艺的大型芯片,针对Foveros技术进行了优化。据介绍:“我们的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过 2 TBps的连接带宽。”
通过发布的全新架构和产品上来说,不难发现均为SoC,集结了英特尔所有的先进科技。独立GPU作为提供矢量计算能力的重要力量,也是展开超异构计算的维度必须拥有的产品。新架构和新产品充分印证了超异构计算战略的可行性,特别是Ponte Vecchio这一产品本身就是异构封装集成的。
Ponte Vecchio通过嵌入式多芯片互连桥接(EMIB)单元进行组装,实现单元之间的低功耗、高速连接。这些设计均被集成于Foveros封装中,为提高功率和互连密度形成有源芯片的3D堆叠。高速MDFI互连允许1到2个堆栈的扩展。据了解,Ponte Vecchio已走下生产线进行上电验证,并已开始向客户提供限量样品。Ponte Vecchio预计将于2022年面向HPC和AI市场发布。
“Ponte Vecchio是英特尔迄今为止最复杂的SoC,也是异构集成的绝佳典范。在制造过程中,产品既使用了英特尔加工厂,也使用了合作伙伴的加工厂。所以它是一个非常典型的多芯片异构集成,最后它达到了一个目前业界最领先的高性能计算的密度,AI方面目前给出的指标,无论是从训练还是推理,目前预测都是最好的”,宋继强这样语重心长地为记者介绍。
超异构计算不再是“纸上谈兵”
标量运算、矢量运算、矩阵运算、空间运算,在数据逐渐复杂和硅基半导体逼近极限的现如今,让不同器件去进行不同擅长的计算领域是快速提升性能的必经之路。
宋继强曾在2021年WAIC表示,英特尔不仅要让CPU去处理标量运算、让GPU处理矢量运算、让AI加速器处理矩阵运算、让FPGA处理空间运算,还要用让这些器件封装在更小系统内,通过oneAPI的一体化软件的统一管理,整个计算系统如同被紧紧“拴”在一起,让计算性能提升一个层级。
本次发布会上,宋继强表示,不同的架构之间,实际上并不是一个简单粗暴的CPU+GPU+加速器+FPGA叠加,CPU、GPU内部也是拥有不同内核的,因此内部计算单元配置也不尽相同。为了应对未来不同数据对计算、传输、存储等各方面带来的要求,必须要用不同架构去做不同种类的定制芯片方案解决数据产生的问题。
宋继强强调,目前这几款新产品已经显现出超异构计算的进展,通过展示实际产品,充分说明了超异构计算已经不再是概念,而是可以实际实施的技术。新产品增强了客户对超异构计算的信心度,新内核的发布能够有效加快产品迭代周期,超异构计算也将会拥有更多种类的异构集成产品。
特别是Sapphire Rapids和Ponte Vecchio这两个SoC,前者面向通用的云计算厂商、服务器群应用,因此采用EMIB 55微米凸点间距异构封装集成;后者面向更高端的超算中心,因此更加“激进”地采用EMIB+第二代Foveros,整体异构封装集成度会更高。
在软件方面,自oneAPI推出第一版至今,如今已拥有超过20万用户,300多个应用程序在其上使用。“如此迅猛的发展趋势说明这个方向广受认可,大众也愿意集体贡献推动异构集成,无论是从异构硬件还是异构编程,未来一定会有更多好产品在oneAPI上浮现”,宋继强如是说。
IDM2.0让英特尔的路走宽了
英特尔自从转向以数据为中心的战略之时,似乎就早已看清自己的优势所在,即“我什么都有,而且什么都是顶尖的”,早前就一直强调六大支柱和异构计算。转眼来到帕特·基辛格时代,更是将这种能力发扬光大,并让格局更大了。
这位技术出身的CEO所看到的比任何人都远,帕特·基辛格曾豪爽放话:“我们在软件、芯片和平台、封装和大规模制造制程领域的深度和广度,使得英特尔能够以独特优势抓住这一巨大的增长机遇。”因此,回归不久后的技术老兵就提出了IDM 2.0的战略,让自己的IDM变得更深更广。
IDM 2.0中,值得关注的就是在代工方面的战略,采用第三方的代工产能,这充分增强了产品的工艺维度,通过自家代工和三方代工有机结合,路子越走越宽。
宋继强告诉记者,采用第三方代工不同制程来生产产品,是IDM2.0策略中的关键一环。Xe-HPG的Alchemist SoC采用了台积电N6制程技术,而X-HPC的Ponte Vecchio也大量采用台积电N5和N7的制程技术,未来发展趋势一定是在英特尔的工艺节点以及代工合作伙伴的工艺节点上选取不同的节点进行配置优化。当然,在没有IDM 2.0之前,英特尔也是有一部分生产是与台积电合作的,IDM 2.0战略更加清晰指出未来的路。
“虽然我们的大部分产品将继续在内部工厂生产,但未来几年,我们将看到外部代工生产的芯片单元会在英特尔的模块化产品中扮演更重要的角色——包括采用先进制程节点的核心计算功能,以支持客户端、数据中心和其他领域的新兴工作负载。如果说过去一年有什么心得,那就是:建立敏捷、韧性的供应链至关重要。代工合作伙伴能帮助我们按计划前行,以可预测的节奏为我们所处的各个领域的客户交付领先产品”,英特尔公司企业规划事业部高级副总裁Stuart Pann如是说。
除了加入第三方代工,IDM2.0中也开放了代工服务IFS。甚至这项计划刚宣布不久,基辛格表示英特尔已与“大约100家客户进行了交谈,他们正在与我们讨论代工机会。”
IDM 2.0从提出到现在仅仅相隔5个月,就已对英特尔产生深远影响。未来时日且多,帕特·基辛格所设想的路还有更多惊喜值得期待。