云脉芯联发布国内首款多场景RDMA智能网卡(DPU)产品

时间：2022-05-31 13:37:49

关键字：云脉芯联智能网卡 CPU

手机看文章

扫描二维码
随时随地手机看文章

[导读]目前，随着数字经济的飞速发展，数据中心已成为支撑和释放CPU算力的重要基础设施，承载着各类数字技术的应用。高性能网络作为数据中心的算力底座，在数据中心架构演进过程中扮演着重要角色，随着摩尔定律放缓，多样性异构算力的崛起，如何通过降低网络延迟提升数据中心集群算力性能指标，满足Serverless云原生算力需求，面临着诸多技术挑战，如：

5月31日，网络互联芯片提供商云脉芯联正式发布自主研发的国内首款多场景RDMA智能网卡(DPU)产品——xFusion50。

目前，随着数字经济的飞速发展，数据中心已成为支撑和释放CPU算力的重要基础设施，承载着各类数字技术的应用。高性能网络作为数据中心的算力底座，在数据中心架构演进过程中扮演着重要角色，随着摩尔定律放缓，多样性异构算力的崛起，如何通过降低网络延迟提升数据中心集群算力性能指标，满足Serverless云原生算力需求，面临着诸多技术挑战，如：

TCP/IP网络协议栈导致收发报文时延过大，无法满足当下HPC、AI计算和分布式存储的高性能需求，同时TCP协议栈处理导致CPU负载高居不下;

随着网络带宽的倍增和集群规模的扩大，网络拥塞问题日益突出，确保网络无损难度加大，网络0.1%的丢包率将导致上层应用算力性能只能发挥50%;

RDMA网络技术已是大势所趋，但在进一步普及过程中缺乏兼容互通，灵活开放的端到端方案，造成在数据中心大规模高效部署RDMA网络有很高的技术门槛。

xFusion50是云脉芯联成功自主研发的第一款产品，也是国内首款实现包括支持端到端拥塞控制完整RDMA功能的DPU产品，xFusion50基于硬件实现的可编程拥塞控制算法能够有效避免网络拥塞，充分发挥RDMA技术的低延迟和高性能，支持云计算、高性能计算、AI、存储集群全场景部署。

云脉芯联创始人&总裁吴吉朋表示：“云脉芯联自去年5月成立以来，坚持以‘专注用户，引领创芯’为核心理念，在产品研发上以用户需求为导向不断砥砺创新。xFusion50的成功面市可有效帮助用户降低部署RDMA网络的技术门槛，实现高带宽、低延迟的高性能集群组网，全面提升算力集群整体效能。为不断满足用户对多场景算力卸载和高性能网络的需求，云脉芯联下一代高性能DPU芯片的研发也在有序进行中，不久即将面世，敬请期待。”

xFusion50产品核心亮点

支持可编程拥塞控制算法

可编程拥塞控制算法是实现端到端无损网络的关键技术，xFusion50不仅能支持业界主流的拥塞控制算法，还可以通过开放可编程的底层网络接口，可根据客户的组网特点和上层业务的需求，灵活支持多种拥塞控制算法，最大化业务的流量吞吐。

通过自主研发HyperDirect技术支持GPU Direct RDMA

为跨计算节点的GPU实现远程内存直接访问，跳过CPU以降低时延、提升带宽，提升分布式异构算力集群的整体效能。

支持网络/存储全场景卸载加速

支持vSwitch全卸载，实现云上VPC网络全功能;支持存储卸载，对接分布式存储NVMe-oF(TCP/RDMA)，充分释放宿主机CPU资源。并通过支持VirtIO实现弹性网络和弹性存储，满足云上用户无缝迁移和快速恢复的业务诉求。

xFusion50产品适用场景及解决方案

高性能集群场景

AI、HPC、分布式存储等高性能集群场景中，对节点间的数据处理与通信有着低时延和高吞吐的诉求，xFusion50支持基于以太网的RDMA组网和可编程拥塞控制算法，实现高性能场景对低时延和高吞吐的需求，并配合云脉芯联提供的xsc-easy-bench可大幅提升业务上线调试效率。

云计算场景

传统云计算架构基于CPU的软件虚拟化技术提供IaaS业务，大量CPU资源被用于处理与租户业务无关的hypervisor层，租户与云hypervisor共享CPU，租户业务容易被管理业务影响，造成抖动。xFusion50为云计算场景提供了一种基于裸金属云的基础设施架构，将hypervisor层卸载到xFusion50上，可满足虚拟机、裸金属、容器多种云上资源供给，并提供网络/存储加速功能，兼顾灵活性与高性能。