OpenAI cho biết đã hợp tác với AMD, Broadcom, Intel, Microsoft và NVIDIA để ra mắt giao thức mạng mới Multipath Reliable Connection (MRC) cho các cụm huấn luyện AI quy mô lớn.
MRC dựa trên RoCE và mở rộng SRv6 source routing, cho phép chia một luồng dữ liệu và phân tán qua hàng trăm đường truyền. OpenAI nói cách này giúp giảm tắc nghẽn ở lõi mạng và bỏ qua lỗi đường truyền, thiết bị chuyển mạch trong vài micro giây.
Giao thức này đã được triển khai trên các siêu máy tính Stargate và Microsoft Fairwater, do OpenAI hợp tác với OCI xây dựng. Hệ thống kết nối hơn 100.000 GPU bằng switch hai tầng, đồng thời giảm mức tiêu thụ điện và số lượng thiết bị.
Thông số kỹ thuật của MRC đã được công bố cho ngành thông qua Open Compute Project.





