在 Codex 的帮助下又斗老黄!现在 5090 除了 P2P,也有 GPUDirect RDMA 用了,32 卡 allreduce 性能从 8GB/s 上升到了 20GB/s。

最终修改只是 libcuda.so 中的一个字节,等有空让大模型给我写篇博客,讲一讲如何对付刀法。

更新:博客初稿已完成 https://harrychen.xyz/2026/05/20/enable-gpudirect-rdma-on-rtx-5090/
 
 
Back to Top