面向可扩展AI计算的连接创新
扫描二维码
随时随地手机看文章
随着人工智能(AI)模型变得越来越复杂,数据量不断攀升,数据中心正在通过改变系统架构,来实现更快、更高效的处理。
基于AI模型产生的业务洞察提高了各行各业的生产力。从为金融机构提供全天候客户支持的AI聊天机器人;到可以实时分析患者数据,预测潜在并发症,从而实现更早干预的医疗保健平台,数据驱动型计算系统的应用正在持续扩展。随着这些模型变得越来越复杂,它们所需的数据量也会不断增加。这还没考虑到生成式AI的发展,生成式AI的结果输出则会更依赖持续扩充的语言模型,和不断升级的算力。
为了支持这些应用,数据中心必须具备更高效的大数据处理能力。这一趋势正在改变数据中心所使用的设备,同时也在改变相应的互连技术。
开发可扩展的数据中心架构
更高带宽、更低延迟的系统,对有效支持AI工作负载非常关键。处理密集型工作负载已经从标准中央处理单元(CPU),转向更强大的图形处理单元(GPU)- 它们的设计初衷是通过同时执行大量相对简单的计算来呈现复杂的图像。针对需要在短时间内完成多项计算任务的应用,GPU已成为首选引擎。与此同时,随着张量处理单元芯片(GPU)的出现,将进一步加速AI的学习工作负载。
单个处理器可以完成的任务毕竟是有限的。通过将处理器集群连接在一起,数据中心的算力可以大幅跃升。而如何将这些集群高效连接在一起是需要攻克的技术挑战。
连接器是实现可扩展性的关键
在多个组件之间实现大量数据快速、可靠地传输需要一系列不同的连接器。承担繁重工作的GPU,以及在整个过程中协调工作负载管理的CPU主要依靠插座和叠板连接器将它们连接到印刷电路板。高速线缆组件和线缆盒将服务器背板上的电气连接件连接到服务器上的电路板和其他组件。其他输入/输出(I/O)连接器将数据从一台服务器传输到另一台服务器,并跨多个服务器连接集群。
为了高效地运行,这些连接器的设计必须满足外形因数规范,同时最大限度地提高数据传输速度。目前最快的AI解决方案的传输速率是56千兆比特/秒。在部署的系统中,这一数字将在未来一到两年内增长到112千兆比特/秒,并有望在两到三年后达到224千兆比特/秒。
随着数据速率的逐步提高,确保系统可靠性能的信号误差范围也在缩小。通过铜缆连接以224千兆比特/秒的速率稳定传输数据,意味着(系统)需要在极限物理条件下工作。除了这些严格的性能规格,工程连接器还必须具有足够的机械方面和散热方面的可靠性,以便能够在严苛的操作环境中使用。
为此,TE设计并生产出各种具有适配功能的连接器,能同时兼顾性能、成本、可靠性和耐用性。这其中包括将加速计算处理单元安装到不同电路板上的连接器接口,以及用于安装中央处理器的插座。为了快速连接这些组件,TE还开发出一系列用于高速板级连接的内部电缆组件、电缆背板组件,以及线缆盒及高速连接器,简化系统集成过程,并支持系统构建和扩展这些系统的模块化方法,最大程度上实现最高速度和最低延迟的可行性。
赋能AI计算
将数据传输到所需位置仅仅只是完成了一半的工作。构成AI集群的组件也需要电力来完成它们的工作。一般来说,更强的算力往往需要更高的电力来驱动。供应这些电力需要更高效的连接器,以支持最高级别的系统性能。
为了支持计算密集型应用,这些组件必须坚固耐用,以确保它们能够可靠地支持连续运行的需求。为了确保不断发展的架构能持续满足这些严苛的规格需求,组件制造商需要提供各种结构形态的电源线缆组件和连接器。
运行复杂的AI计算组件需要更高的电力,更高的电力会产生更多热量。这让散热成为非常关键的一环。AI系统前面板上的连接通常是最大的发热源之一,也让该区域成为需要提高效率的重点区域。TE的I/O产品具有内置散热功能,可将热能从这些模块传导出去,以保持较低的运行温度,从而提高系统的整体效率和可靠性。
在早期开展协作
为了支持日益复杂的AI应用,数据中心对更快速度、更高带宽的需求基本上是没有尽头的。即使在部署用于当下的解决方案时,我们的客户也在积极思考如何为数据中心的下一步发展设计更快、更高效的架构。
有时,连接器功能的选择可能会改变系统架构的方法。例如,当我们与一位客户在其系统的早期设计阶段紧密合作时,经过深入的探索,我们最终将从基于板对板连接器的系统改为使用基于线缆背板的系统,从而使系统变得更加灵活和高效。
这样的创新之所以能成功,是因为我们在早期就与客户保持密切沟通,了解他们当前的需求,及其未来的愿景。随着AI发展加速数据中心的转型,这种协作对于持续推动行业快速发展,以满足激增的对越来越强大的算力的需求至关重要。
(本文作者:TE Connectivity数据与终端设备事业部高级副总裁兼总经理Sudhakar Sabada)