美光发布第二代HBM3,加速AI计算应用
扫描二维码
随时随地手机看文章
2015年,AMD发布了搭载HBM的GPU显卡。彼时大众对于HBM并不了解,苏姿丰形象比喻HBM的创新点在于——将DRAM颗粒由传统的“平房设计”转变为“楼房设计”,可实现更高的性能和带宽。
而今,HBM成为了影响GPU显卡实现更高性能AI计算的关键,AI巨头排队抢购。在最近的两次英伟达的新品发布中,黄仁勋也多次强调HBM3于AI计算的重要性。大众也开始意识到HBM的重要性,将HBM视为是躲在GPU背后的大赢家。
作为内存领导者,美光必然不会缺席HBM这场盛筵。近日,美光发布了业界首款8层堆叠的24GB 第二代HBM3,采用美光的1β制程工艺,实现了1.2TB/s超高性能。
AI应用对内存提出了更高的要求
我们可以把AI应用分为三大类。首先是生成式AI,包括时下火热的ChatGPT和Mid-Journey等,都属于此类范畴。第二类是深度学习,例如虚拟助理、聊天机器人和医疗诊断等。这类应用需要处理大量的数据,并通过算法来诠释数据、加以预测。第三类是高效能计算,包括全基因测序、天气预测等重大科学问题的解决,都需要依赖于此类AI计算能力发展。
而不论是哪种AI应用,都驱动了大量的计算性能需求和内存需求。据美光副总裁暨计算与网络事业部计算产品事业群总经理Praveen Vaidyanathan分享,光拥有大量的计算能力,却没有足够的內存带宽来支持也是不够的,通常计算性能的瓶颈超过半数都与內存的带宽有关。
此外,大语言模型的参数数量正在巨量增长,因此AI应用上需要更高的内存容量密度,以在相同的体积内实现更高的内存容量。最后还需要关注到功耗,据推测未来7年内数据中心的耗电量将占全球电力消耗近8%,而AI服务器中所需的内存是通用服务器的6~8倍,因此内存的高能效也同样关键。
为了应对数据密集型工作负载和应用程序的增长,数据中心基础构架已经被重新定义。传统上围绕着CPU的数据中心架构已经不足以满足当下的计算需求,GPU、FPGA和ASIC等专用加速芯片正在成为异构数据中心发展的核心。与此同时,仅仅靠DDR也已经不足异构数据中心基础设施的需求,HBM作为超带宽方案更为实现AI计算加速的关键。
HBM位于非常靠近GPU或CPU的中介层上,由多个DRAM Die以堆叠的方式构成,最底层是逻辑控制单元,每一层Die之间采用TVS的方式互联。凭借其宽I/O总线和增加的密度,HBM提供了现代数据中心基于加速器的计算模型所需的高性能和功效。目前HBM技术最新已经发展到了HBM3e,而预期明年的大规模AI计算系统商用上,HBM3和HBM3e将会成为主流。
美光第二代HBM3,先进工艺和封装技术加持
AI应用爆发促进了数据中心基础构架的发展,而HBM市场也将受益于此,据悉未来三年HBM的年复合增长率将超过50%。
美光近日推出的第二代HBM3,是24GB的单块DRAM,也是市面上第一款八层堆叠的24GB HBM3。在带宽、容量和功耗上,新的HBM3都实现了突破:内存带宽高达1.2TB/s,引脚传输速率超过9.2Gb/s,较市面上11x11毫米的HBM3 Gen1产品高出约50%;功耗方面每瓦性能相较前代提升了2.5倍。
能够取得如此领先的表现,得益于美光在HBM3上的技术积累。据悉,此次采用了1β制程工艺和先进的封装技术。
HBM3 Gen2是美光采用1β制程的第三个产品,该工艺已经达到规模生产要求,在去年第四季度开始投入生产,包括最新的LPDDR5和DDR5均采用此项工艺。该工艺是支持内存实现更高容量密度的关键,美光也计划在24GB 8层HBM3 Gen2的基础上,明年推出36GB 12层堆叠的产品。
而先进封装技术则是实现3D IC的技术基础,据Praveen介绍,美光致力于不断提升硅通孔(TSV)与封装以实现突破,达到封装互联的缩小。相比目前商用的产品,美光在HBM3 Gen2上提供了两倍的硅通孔(TSV)数量,并且采用了缩小25%的封装互联,缩小了DRAM层之间的空间,从而缩短了热量传输的距离;在封装互联的数量上也有所提升,从而减少了热阻抗,实现了更高的散热效率。此外,产品内部采用了采用更高能效数据路径设计,从而实现功耗的改善。
助力打造实现更高效的AI系统
对于AI系统而言,客户在意的是提高训练算法的精度,同时尽量实现更低的系统功耗。而美光HBM Gen2的出现,可以进一步助力客户打造更高效的AI系统。
据悉,在AI系统引入最新的HBM Gen2后,得益于内存带宽的提升,整个AI训练演算将会变得更为高效,大幅降低模型训练的时间。对于大语言模型而言,能够将训练时间降低30%。同时由于内存容量的提升,给予了客户更多的灵活性。不论是客户想追求更准确的精度,还是更快的运算速度,都是可以实现的。
而HBM3 Gen2的低功耗的热点,能够为客户提供更高的价值。一方面,更低的功耗可以帮助数据中心客户实现电费的节省,打造更绿色的服务器。假设一个数据中心装设了1000万个GPU,那么每个HBM哪怕实现了几W的功耗降低,对于整个数据中心而言都可以实现巨大的电量节省。而另一方面,对于电力充足的客户而言,HBM内存上节省的电力可以分配给GPU或ASIC,从而实现了整个系统的效能的提升。
HBM3 Gen2的性能提升,将会最终影响到AI应用的加速赋能。“虽然终端消费者不会直接购买HBM,但如果他们发现每天查询的效率或数量增加,便能提升他们的使用体验。”Praveen分享到,“长期而言,整个训练的成本会降低,最终计算的成本也会随之降低。因此,在未来几年,当越来越多人使用AI引擎,整体AI计算性能也会跟着提升。”
HBM乃内存厂商的兵家必争之地,美光也已经进行了长远的产品规划。据悉美光已经在开发 HBM Next内存产品,该 HBM 迭代将为每个堆栈提供 1.5 TB/s – 2+ TB/s 的带宽,容量范围为 36 GB 至 64 GB。