DeepSeek đề xuất phương pháp “Visual Primitives” để xử lý khoảng trống tham chiếu trong tác vụ đa phương thức, bằng cách đưa các đơn vị hình ảnh cơ bản như điểm và khung vào chuỗi suy luận.
Phương pháp này dựa trên kiến trúc DeepSeek-V4-Flash và sử dụng bộ nhớ đệm key-value được nén để giảm tiêu thụ token hình ảnh. Nhóm phát triển cho biết mô hình sẽ được công bố trọng số sau khi tích hợp, đồng thời mở nguồn một phần bộ kiểm tra và dữ liệu trong thời gian tới.
DeepSeek cho biết hệ thống đạt kết quả tương đương GPT-5.4, Claude-Sonnet-4.6 và Gemini-3-Flash ở các bài kiểm tra đếm và suy luận không gian, dù chỉ trong một số chiều đánh giá nhất định.





