综合新闻

计算机学院陈果教授团队研发高性能软件RDMA协议栈(BURST)突破异构集群通信瓶颈

发布时间:2025-12-31

随着AI基础设施的规模和复杂性不断增加,RDMA已成为支撑高性能训练、推理和存储系统的关键通信方式。然而在真实集群中,商用RNIC、普通以太网卡以及各类自研高性能网卡常常混合部署,这使得RDMA的互通性成为实际落地的瓶颈:当非RNIC节点需要与RNIC节点进行高速通信时(Non-RNIC to RNIC, NR2R),系统往往只能退化到KTCP通道,从而无法发挥RDMA的高吞吐与低时延的优势,成为大规模训练、推理和存储系统的关键瓶颈。

近日,计算机学院陈果教授团队提出了BURST——一个面向异构环境的高性能Soft-RDMA栈。通过基于用户态的设计、安全可靠的共享资源管理机制,以及结合DPDK与DSA的高效加速,BURST实现了与商用RNIC行为和性能基本一致的RoCEv2通信流程,并在400G环境下首次证明:软件RDMA也可以以较低的CPU开销,实现接近硬件线速的吞吐,并显著提升NR2R场景的连接建立效率与通信性能,为RDMA在异构集群中的大规模落地提供了可行路径。

研究成果“BURST: Seeking High-performance, Interoperability and Scalability in Soft-RDMA”被计算机网络领域国际顶级学术会议NSDI 2026接收。湖南大学计算机学院博士研究生申卉君为论文第一作者,湖南大学教授陈果为通讯作者,完成单位包括湖南大学和字节跳动。

USENIX NSDI是计算机网络系统设计与实现领域的顶级学术会议,与ACM SIGCOMM并列为全球计算机科学专业顶级学术会议列表CSRankings(https://csrankings.org)收录的该领域两大国际顶级会议。

软件RDMA协议栈(BURST)的吞吐量和CPU开销

来源:国家超级计算长沙中心

通讯员:罗可

实习编辑:易文珍

责任编辑:周丹

TOP