DeepSeek đã mở mã nguồn TileKernels, thư viện operator GPU hiệu năng cao cho mô hình AI
DeepSeek vừa công khai TileKernels trên GitHub. Thư viện này được xây dựng trên TileLang và tối ưu cho huấn luyện lẫn suy luận của các mô hình ngôn ngữ lớn.
TileKernels tập trung vào hiệu năng tính toán và băng thông bộ nhớ
DeepSeek cho biết TileKernels được tối ưu sâu để tiến gần giới hạn của phần cứng về cường độ tính toán và băng thông bộ nhớ. Thư viện này bao phủ các tác vụ như MoE routing, lượng tử hóa FP8/FP4 và nhiều operator fusion.
Đã tương thích với kiến trúc NVIDIA SM90 và SM100
TileKernels hiện tương thích với NVIDIA SM90 và SM100 Blackwell, đồng thời yêu cầu CUDA 13.1 trở lên. Hiện chưa rõ DeepSeek có kế hoạch mở rộng hỗ trợ sang các kiến trúc khác hay không.
Tổng kết
Việc mở mã nguồn TileKernels cho thấy DeepSeek đang chia sẻ một phần hạ tầng tối ưu GPU mà hãng dùng nội bộ cho các tác vụ AI hiệu năng cao.





