Vào ngày 26 tháng 2, DeepSeek đã ra mắt DeepGEMM trong tuần lễ mã nguồn mở của mình. Đây là một thư viện CUDA hỗ trợ FP8 GEMM, giúp tối ưu hóa tính toán ma trận dày đặc và kiến trúc kết hợp của chuyên gia (MoE), nhằm nâng cao khả năng đào tạo và suy luận của các mô hình V3/R1. DeepGEMM nổi bật với hiệu suất cực cao, đạt hơn 1.350 TFLOPS FP8 trên GPU Hopper. Thư viện được thiết kế với các phụ thuộc tối thiểu, không cần phụ thuộc nặng nề và có mã đơn giản giống như hướng dẫn. Việc biên dịch JIT là tự động, không cần biên dịch trước và tối ưu hóa tự động khi chạy. Phần mã cốt lõi chỉ khoảng 300 dòng nhưng vượt trội hơn so với các lõi được tối ưu hóa bởi chuyên gia cho hầu hết kích thước ma trận. Nó hỗ trợ dàn xếp dày đặc và hai dàn xếp MoE.
Nội dung này chỉ mang tính chất cung cấp thông tin thị trường và không phải là lời khuyên đầu tư.