Gradient ra mắt Echo-2, framework học tăng cường phân tán giúp huấn luyện mô-đun 30B+ với chi phí khoảng 425 USD cho mỗi phiên 9,5 giờ nhờ tách Learner và Actor và dùng RL bất đồng bộ.
Công bố ngày 12/02, Echo-2 được mô tả là giảm chi phí và tăng khả năng mở rộng khi huấn luyện mô hình lớn, đồng thời hỗ trợ kiến trúc plug-and-play và phân phối trọng số nhanh cho tác vụ phân tán.
- Echo-2: 30B+ mô-đun ~425 USD/9,5 giờ mỗi phiên.
- Tách Learner/Actor + RL bất đồng bộ (bounded staleness).
- Parallax + RTX5090: rẻ hơn 36% so với A100 tập trung cho Qwen3-8B.
Echo-2 mang lại gì về chi phí và kiến trúc?
Echo-2 nhắm tới giảm chi phí huấn luyện bằng cách decouple Learner và Actor, chạy reinforcement learning bất đồng bộ với bounded staleness.
Theo Gradient, chi phí huấn luyện các mô-đun 30B+ được đưa về khoảng 425 USD cho mỗi phiên kéo dài 9,5 giờ. Cơ chế tách Learner/Actor giúp phân rã tải huấn luyện và giảm nút thắt cổ chai khi điều phối tác vụ trong môi trường phân tán.
Echo-2 sử dụng kiến trúc ba mặt phẳng (three-plane) để hỗ trợ plug-and-play, cho phép thay thế hoặc lắp ghép thành phần khi triển khai phân tán. Hệ thống cũng đề cập Lattica có thể phân phối trọng số 60GB+ trong vài phút, tối ưu tốc độ truyền và đồng bộ trọng số cho các phiên huấn luyện lớn.
So sánh hạ tầng: RTX5090 phân tán vs A100 tập trung
Bài báo của Gradient cho biết dùng Parallax để lập lịch RTX5090 phân tán khi huấn luyện mô-đun Qwen3-8B rẻ hơn 36% so với dùng A100 tập trung và không bị diverge.
Điểm nhấn là Parallax đóng vai trò lập lịch (scheduling) cho cụm GPU RTX5090 phục vụ huấn luyện phân tán. Tuyên bố 36% rẻ hơn tập trung A100 cho cùng bài toán Qwen3-8B gợi ý chi phí/hiệu năng được tối ưu khi ghép nhiều GPU phổ thông/đa điểm thay vì phụ thuộc vào hạ tầng trung tâm.
Tài liệu cũng nhấn mạnh tính ổn định huấn luyện: không diverge trong kịch bản RTX5090 phân tán. Kết hợp với RL bất đồng bộ (bounded staleness), Echo-2 hướng tới mở rộng quy mô mà vẫn giữ độ ổn định khi cập nhật tham số và đồng bộ tiến trình.





