突破计算存储密集型工作负载中的网络和内存瓶颈,AMD推出集成HBM的Alveo V80加速卡
扫描二维码
随时随地手机看文章
为提高特定类型的计算负载,在数据中心中存在着大量的加速卡,包括GPU、FPGA和ASIC等多种不同的类型。GPU凭借着更高的并行计算能力闻名,对于深度学习和机器学习能够提供更好的效能优势;而FPGA则具备高度可编程性和可配置性,可针对特定任务进行硬件优化来显著提高性能、优化延迟并带来成本效益。
全球数据中心加速器市场预计将以24%的年增长率飞速发展,到2032年达到1300亿。这背后不仅是生成式AI的训练来推动,还包括了各类的推理场景的落地。而在像银行业的高频交易、电信行业的网络虚拟化和安全加密、医学和科研领域的大规模数据分析和实时洞见等具备大规模数据集和低延迟需求的应用中,FPGA加速卡凭借着灵活计算和低延迟的优势,通常会为计算负载带来着更好的加速表现。
近日AMD发布了其最新的基于Versal HBM自适应SoC的加速卡——AMD Alveo V80加速卡,这是其第一款面向大规模市场的加速卡产品,旨在帮助突破计算和存储密集型工作负载中的网络和内存带宽瓶颈,帮助客户实现性能最大化的同时减少功耗、占板面积和时延。
大数据集计算的真正限制——网络和内存瓶颈
一个高性能计算架构需要包含数据的输入、前级处理、主处理单元、内存和高速互联输出等多个部分,而限制整个计算加速的瓶颈,其实并不出现在计算部分。如下图所示,传统的架构中,网络的输入带宽较低,仅支持25G和100G两个通路的数据输入,这为整个计算架构带来了第一个瓶颈;而计算单元还需要和DDR进行反复的数据读写。但其实DDR内存的带宽,远低于计算单元计算带宽,这就又产生了第二个瓶颈。
网络带宽不足可能会成为整个系统性能的瓶颈,限制数据处理的速度和效率。内存速度和容量如果不足,将影响数据的快速访问和处理,尤其是在涉及大规模数据集或需要复杂计算的应用中。在这两个瓶颈的限制下,即使计算单元有着更高的计算速度、后端的PCIe和Interlaken与其他芯片有着更快的连接速度,也无法完全释放整个计算架构的真正能力。从整个架构来看,要实现数据流的管理和优化,让其保持与计算单元相匹配的快速响应。
在像高性能科学模拟、视频处理和分析、金融技术等大型计算任务中,对于网络带宽和内存瓶颈尤其敏感。网络和内存性能不足都会直接影响到任务的处理速度、系统的响应时间以及最终的输出质量。因此,在设计和部署这些应用时,优化网络和内存配置是关键。
“通过Versal HBM,也就是今天给大家介绍的Alveo V80计算加速卡,能够主要解决高性能计算工作负载的内存和网络访问方面形成瓶颈的这两个问题。“AMD 自适应和嵌入式计算事业部(AECG )高级产品线经理Shyam Chander在发布会上分享到,“V80芯片支持的工作负载非常广泛,可以从10G到800G,范围非常广泛,而且速率有所提高,能够支持不同的协议。HBM再加上其他各种Versal器件,它可以处理掉刚刚提到的瓶颈问题,所以不再需要DDR4或其他外部芯片。把安全连接再加上灵活应变的计算,再加上HBM,我们可以帮助用户实现性能的最大化,同时减少功耗、占板面积以及时延。”
Alveo V80加速卡:灵活硬件加速和低时延处理
Alveo V80加速卡上搭载的加速芯片是来自AMD的一颗7nm Versal系列自适应SoC,其中包含了260万LUT可编程逻辑资源,以及集成了32GB的HBM2e,能够达到820GB/s的数据带宽。此外,该SoC上还集成了400G加密引擎和600G以太网的高带宽核心,还包括了DDR控制器、PCIe5等硬核资源。
整个加速卡上除了这颗Versal自适应SoC外,还具备丰富的拓展和连接能力。板载高带宽收发器和光纤模块,能够支持800G(4X200G)网络带宽、PCIe Gen5金手指、32GB DDR4 DIMM拓展插槽和MCIO拓展插槽等。
据Shyam Chander介绍,相比上一代的Alveo U55C加速卡,Alveo V80的提升明显。通过参数对比可以看到存储器带宽方面,V80是至高1.8倍,逻辑密度是至高2倍,网络带宽从200GB每秒升至800GB每秒,至高4倍,在PCle带宽方面至高2倍。
【FPGA加速卡的独特优势】
网络附接加速卡需要与本地的CPU进行连接,而受限于CPU的连接能力,所以不能够无限增加加速卡的数量。而如果选择Alveo V80作为网络附接加速卡,那么就可以以以网络限速加速传入数据,避开CPU至加速器的PCle的瓶颈,实现每服务器卡数和计算密度的最大化。
凭借着灵活的存储器层次,自适应计算架构相比传统架构有着更低的时延和功耗。在传统的CPU/GPU架构中,计算核心和缓存之间有着固定的层次结构,大数据量的读写必然需要夸层访问,这种不规则的访问模式会带来了潜在的低效率。而在自适应计算架构中,内存可以部署地更靠近计算核心,这能够大大降低了数据迁移的成本。
加速传感器处理和数据压缩分析等工作负载,大幅降低客户总体拥有成本
凭借着Alveo V80的独特优势,不少客户已经获得了更好的加速体验。AMD在发布会现场展示了多个不同类型的案例。一个非常适合FPGA加速卡的场景是在传感器处理方面,Alveo V80能够强化处理相信你,且大幅降低客户的成本。
联邦科学与工业研究组织(CSIRO)需要在每平方公里的面积上部署131000个天线,以15TB/s的速率进行次序的传感器数据采集和传输。此前CSIRO选择的是420块Alveo U55C卡用于波束成形和相关器计算,总计需要占用21台服务器和4个机架。而在更新到ALveo V80之后,通过单卡的密集计算简化了整个新系统的集成、扩展和集群。最终仅需140张V80加速卡就可以完成之前420张U55C才能完成的计算,服务器数量也减少至14台,电力消耗也节省了一半以上。换算总拥有成本预计至高可以降低21%。
另一个典型的用例是在具备压缩与数据分析功能的服务器存储节点上,V80加速卡可用于数据压缩和分析的功能。NVMe SSD可以直接透过MICO连接器将数据传入V80上的Versal SoC中进行压缩、分析和解压缩等操作,然后将数据通过PCIe 5传输给主机CPU。因为Versal SoC中集成了HBM,所以大大减少了数据迁移,加速了数据查询的效率。
据Shyam Chander分享,通过Alveo V80带来的压缩加速和存储容量增加,传统上需要55台服务器、1303个SSD驱动器才能完成的计算负载,现在仅需21台服务器、504个SSD驱动器和42张V80加速卡即可完成。服务器成本降低了44%,功耗降低了55%,总拥有成本最高可以降低56%。
除此外,在网络安全和金融科技方面,V80加速卡也有着不可替代的价值。凭借着硬化的加密引擎和灵活的数据检测、协议和安全策略,以及来自HBM带来的缓冲和流量表储存功能,Alveo V80可以推动下一代800G网络防火墙的构建。在金融建模和算法交易方面,Alveo V80中的FPGA和DSP计算资源可用于建模仿真和回测,而HBM资源则可用于大数据集和历史定价数据存储,此外还有752Mb的RAM用于定价数据、交易记录。
结语
FPGA加速卡相比GPU加速卡,在某些工作负载方面有着独特的优势。而Alveo V80还集成了HBM,因此在提供灵活计算能力的同时,还大大降低了处理的时延和能效。但不可否认的是,FPGA加速卡对于开发者的硬件编程能力要求更高,纯软件工程师上手可能还需要一些学习成本。AMD也表示,Alveo V80针对传统FPGA开发者提供了更为优化的开发流程,当他们需要针对自定义工作负载进行硬件优化的时候,可以通过AMD VVivado设计套件来优化RTL设计,快速完成启动项目的示例设计。
Shyam Chander表示,根据不同的工作负载会有不同的计算加速需求,未来各种类型的加速卡将会共存。GPU主要擅长浮点、并联、定点计算,可以提供大量的HBM。FPGA主要擅长线上访问的实时处理,而且具备低时延、灵活应变特点,有非常丰富的存储器架构资源,就像乐高积木一样,可以自定义进行拼接和拼装。“FPGA的自适应SoC能降低时延,也能进行实时的传入数据的处理,同时还能够减少功耗。所以我觉得对于硬件开发者来说,FPGA为基础的加速器卡是最为适用的。”