中国可能会在人工智能计算领域获胜
扫描二维码
随时随地手机看文章
未来十年的技术驱动力是人工智能。引用应用材料公司首席执行官 Gary Dickerson 的话:“我们准备好迎接我们一生中最大的机会了吗?” 迪克森一直在世界各地与芯片制造商和政策制定者讨论一个价值 10 万亿美元的问题:我们如何抓住人工智能的经济机会,这将在未来几年改变几乎所有行业和机构?Gary 展示了这张图表,展示了半导体行业面临的 1,000 倍挑战。
事实上,随着计算需求大约每 3.5 个月增长 2 倍,人工智能挑战是一个不断变化的目标。
近年来,美中关系日益紧张,导致美国阻止中国获得先进的半导体技术和设备。这包括使用高级工具,例如极紫外 (EUV) 光刻。因此,据报道,只有台积电、三星和英特尔在 10nm 以下的技术节点规模上保持竞争。因此,分析师表示,中国公司将替代资源集中在成熟的芯片技术上是有道理的。
这可以解释多家中国公司采用混合键合作为核心技术的原因。混合绑定允许他们用系统级 3D 缩放代替维度节点缩放。
2018年8月,长江存储在闪存峰会上正式发布突破性的Xtacking架构,并获得Best of Show奖。对于其3D NAND产品,它使用两条半导体生产线,一条用于3D NAND多级存储器,一条用于外围(存储器控制)电路,如下图所示。
2020 年 9 月,另一家中国公司 IC League 在一篇题为“ Breaking the Memory Wall for AI Chip with a New Dimension”的论文中公布了其面向 AI 的 IC 开发的片上异构集成技术 (HITOC) 的成果。
引用论文中的内容,“使用 HITOC,我们有两个晶圆,逻辑晶圆和内存晶圆,键合在一起(使用混合键合)[见上图]。在逻辑晶片上,我们有处理单元池。另一个晶圆上的逻辑池下方是 DRAM 阵列池。” IC League 报告的结果优于整体改进的数量级,如下表所示。
在 ISSCC 2022 上,阿里巴巴在题为“184QPS/W 64Mb/mm2 3D Logic-to-DRAM Hybrid Bonding with Process-Near-Memory Engine for Recommendation System”的论文中展示了使用混合键合的 AI 计算设备的 1000 多倍改进。
该论文正确地指出,对于 AI 计算,数据传输主导着系统性能和功耗。因此,克服“记忆墙”是人工智能计算的关键,随着人工智能模型计算需求规模的迅速扩大。
该论文详细介绍了利用混合绑定从多组 DRAM 直接连接到 AI 处理器逻辑的设备架构。商品市场上 DRAM 的裸片尺寸相当小,小于 50 mm 2部分是由于较高的良率和 JEDEC 标准的限制。有意思的是,阿里巴巴的logic-to-DRAM 3D芯片是真正意义上的大芯片;602.22 毫米2. 通过这样做,这项工作的一个重要方面是将逻辑和相应的 DRAM 构建为一个完整的系统设计,其中多个 DRAM 组直接连接到下面的多核逻辑。然后,我们甚至可以将这种 3D Logic-to-DRAM 概念扩展到全晶圆级芯片,如 Cerebra 的 Wafer-Scale-Engine (CS-2)。不幸的是,Cerebra 的晶圆级引擎目前仅使用 SRAM。想象一下,如果一个完整的 DRAM 晶圆将直接混合键合在 Cerebra 的晶圆级引擎上。该公司透露,其 CS-2 具有 40 GB 的片上 SRAM。在相同尺寸下,DRAM 可以轻松提供超过 1 TB 或至少 25 倍以上的容量。现在,我们离打破记忆墙又近了一步。
阿里巴巴的论文标题表明,该工作针对推荐系统的人工智能部分,阿里巴巴对此非常感兴趣,并一直在开发包括发布工作在内的系统自 2017 年以来。本文提出了在性能和功耗降低方面非常重要的突破。“与 CPU-DRAM 系统相比,我们的芯片实现了 9.78 倍的加速。请注意,通过扩大混合绑定块的数量或使用更先进的工艺技术来服务更复杂的推荐模型,可以进一步提高吞吐量和内存容量。在能源效率方面,这在内存受限的应用程序中很重要,我们的工作达到了 184.11QPS/W(QPS – Queries per Second),比 CPU-DRAM 系统高出 317.43 倍。在面积效率方面,高密度混合键合提高了QPS/mm 2660×。” 结果是在使用相对较旧的 55 nm 工艺节点进行逻辑时实现的,并与以 14 nm 处理的顶级 Intel Xeon Gold CPU 进行了比较。
这些结果比 AMD 报告的V-Cache报告的结果要好几个数量级,它使用混合绑定将缓存内存添加到其 Ryzen CPU。造成这种差异的原因可能有几个,包括重新构建系统以高度利用混合键合技术的努力。阿里巴巴芯片的架构肯定是从头开始预期混合键合的,而 AMD 的组合可能是事后才想到的。此外,应该注意的是,虽然 AMD 报告使用了 9µm 的垂直连接间距,但中国供应商报告的垂直间距为 3µ,在某些情况下甚至为 1µ。