3D处理器的3种制造方法
扫描二维码
随时随地手机看文章
高端计算的解决方案是堆叠硅片。
一批高性能处理器表明,延续摩尔定律的新方向是向上发展。每一代处理器都要比上一代性能更好,究其根本,这意味着要在硅片上集成更多的逻辑。但其中存在两个问题。首先,我们缩小晶体管及其组成的逻辑和内存块的能力正在放缓。其次,单块芯片已经达到了尺寸极限。光刻工具可以在850平方毫米的面积内绘制图案,这大约是一个现代服务器图形处理单元(GPU)的大小。
有一种解决办法是将两块或多块硅片并排放置在同一个封装中,并使用几毫米长的密集互连将它们缝合在一起,这样它们就可以作为一个单元有效地运行。这种所谓的2.5D方案由先进的封装技术实现,已经落后于几个顶级处理器,这些处理器现在由多个功能性“芯粒”组成,而不是单个集成电路。 但是,要像在同一块芯片上一样传输大量数据,我们需要更短、更密集的连接,而这只能通过将一块芯片堆叠在另一块芯片上来实现。在3D方案中面对面连接两块芯片可能意味着每平方毫米要有数百甚至数千微米长的连接。通过这些短而密集的连接,只需很少的能量就能将数据从一块硅片快速传输到另一块,就好像两块硅片是一块芯片一样。要做到这一点需要很多创新。工程师们必须想办法防止堆栈中一块芯片的热量破坏另一块芯片,决定哪些功能应该放在哪里、这些功能如何实现,防止偶尔出现的坏芯片造成大量昂贵的无用系统,以及应对一次完成这一切所增加的复杂性。
以下3个示例不仅展示了3D芯片堆叠是如何完成的,还介绍了其优势。
采用3D V-Cache缓存技术的AMD Zen 3
长期以来,个人计算机都可以选择增加内存,以便提高处理超大应用和大数据量工作的速度。由于3D芯片堆叠的出现,超微半导体公司(AMD)的下一代CPU芯粒也有了这个选择。当然,这不是售后市场的扩展组件,但如果你想打造一台更具魅力的计算机,那么订购一款有超大缓存的处理器可能是正确的选择。

吴指出,与缩小逻辑的能力相比,业界缩小SRAM的能力正在放缓。因此,未来的SRAM扩展包可能会继续使用更成熟的制造工艺,而计算芯粒将被推到摩尔定律的最前沿。
Graphcore的Bow AI处理器
即使堆栈中的一块芯片上没有晶体管,3D集成也可以加快计算速度。总部位于英国的人工智能(AI)计算机公司Graphcore仅通过在其AI处理器上安装一块功率传输芯片,就大幅提高了其系统的性能。增加功率传输硅片意味着名为Bow的组合芯片可以运行得更快,为1.85而非1.325千兆赫,且电压低于其前一代。与上一代相比,这相当于通过训练神经网络使计算机的速度提高了40%,而能耗降低了16%。重要的是,用户无须更改其软件便能获得这种提升。

英特尔的Ponte Vecchio超级计算机芯片
极光超级计算机旨在成为美国首批突破exaflop屏障(每秒百亿亿次高精度浮点运算)的高性能计算机之一。为了让极光达到这种高度,英特尔的Ponte Vecchio在47块硅片上封装了1000多亿个晶体管,构成了一台处理器。英特尔使用2.5D和3D技术将3100平方毫米的硅片塞进了2330平方毫米的空间中,大约相当于4块英伟达A100 GPU。

戈麦斯表示,从2008年第一台千万亿次浮点运算超级计算机发展到今年的百亿亿次浮点运算超级计算机花了14年。他预测,借助3D堆叠等先进封装技术,下次将计算速度提高千倍所需的时间可能会缩短到6年。
3D技术
混合键合将芯片互连堆栈顶部的铜焊盘与另一块芯片上的铜焊盘直接键合在一起。在混合键合中,焊盘位于被氧化物绝缘体包围的小凹槽中。绝缘体被化学激活,在室温下被反向按压时会立即结合。然后,在退火步骤中,铜焊盘会膨胀并桥接间隙,形成低阻抗链路。混合键合的连接密度高达每平方毫米1万个键合,远高于微凸块技术每平方毫米400至1600个键合的连接密度(见图表)。

微凸块本质上是一种叫做“倒装芯片”的标准封装技术的缩小版。在倒装芯片中,焊料凸块被添加到了芯片顶部(表面)的互连端点。然后将芯片翻转到具有一组匹配互连的封装基板上,并熔化焊料形成键合。要用这种技术堆叠两块芯片,其中一块芯片的表面必须有短铜柱。然后用一个“微凸块”焊料盖住这些芯片,通过熔化焊料将两块芯片面对面连接起来。
使用微凸块时,从一个连接的起点到下一个连接最边缘的最短距离(也就是间距)可以小于50微米。英特尔在Ponte Vecchio超级计算机芯片中使用了36微米间距版本的Foveros 3D集成技术。三星表示,其名为3D X-Cube的微凸块技术可以实现30微米的间距。该技术达不到(上述)混合键合的密度。然而,它对对齐和平面化的要求并不像混合键合那样严格,因此更容易将采用不同制造技术制造的多块芯片堆叠到单个基极芯片上。
硅通孔(TSV)是垂直向下穿过芯片硅的互连。它们不会贯穿整个晶圆,因此必须将硅片的背面磨平,直至硅通孔暴露出来。这在3D堆叠芯片中通常是必要的,因为要将芯片键合在一起使其互连面对面。在这种情况下,硅通孔可为堆栈供电并提供数据。多年来,它们在垂直堆叠多块内存芯片的高带宽动态RAM中得到了广泛应用。但随着3D芯片堆叠技术的发展,这项技术也应用到了逻辑芯片中。