DeepSeek công bố paper học thuật về hệ thống suy luận DualPath, tối ưu hiệu năng suy luận LLM cho tác vụ agent, giúp tăng throughput suy luận offline tối đa 1,87 lần và tăng số agent runs/giây trung bình cho dịch vụ online 1,96 lần.
Trong lúc thị trường chờ mô hình flagship thế hệ mới DeepSeek V4, nhóm DeepSeek âm thầm phát hành nghiên cứu tập trung vào hạ tầng suy luận cho agent, khi LLM chuyển dịch từ chatbot một lượt sang hệ thống tự lập kế hoạch, gọi công cụ và xử lý tác vụ qua nhiều vòng tương tác.
- Paper mới giới thiệu hệ thống suy luận DualPath cho LLM dưới agent workloads.
- Cơ chế dual-path read KV-Cache giúp phân bổ lại tải mạng lưu trữ.
- Offline throughput tăng tối đa 1,87 lần; online agent runs/giây tăng 1,96 lần.
DualPath cải thiện hiệu năng suy luận LLM như thế nào
DualPath dùng cơ chế dual-path read KV-Cache (tương tự memory cache) để tái phân bổ tải cho mạng lưu trữ, qua đó tăng hiệu năng suy luận khi LLM chạy theo kiểu agent.
Theo paper, việc đưa cơ chế dual-path read KV-Cache vào đường đọc giúp dịch chuyển và phân phối lại storage network load. Kết quả đo được: offline inference throughput tăng tối đa 1,87 lần, còn dịch vụ online tăng average agent runs per second lên 1,96 lần.
Trọng tâm tối ưu nằm ở inference performance under agent workloads, tức tải suy luận phát sinh khi một agent phải liên tục truy xuất ngữ cảnh và trạng thái qua nhiều bước. DualPath hướng tới tối ưu luồng truy cập KV-Cache để phục vụ các vòng tương tác dài, thay vì chỉ tối ưu cho chat ngắn.
Dịch chuyển từ chatbot sang agent đang đổi mô hình tải suy luận
Paper nêu LLM đang chuyển từ chatbot một lượt và mô hình suy luận độc lập sang agent systems, khiến inference workloads đổi từ tương tác người–mô hình sang người–mô hình–môi trường.
Nhóm DeepSeek mô tả agent có khả năng autonomous planning, invoking tools và giải quyết tác vụ thực tế thông qua multi-turn interactions. Khi đó, số vòng tương tác có thể lên tới hàng chục hoặc hàng trăm vòng, làm đổi đặc trưng tải hệ thống so với kịch bản hỏi–đáp truyền thống.
Sự thay đổi này đặt trọng tâm vào khả năng duy trì và truy xuất ngữ cảnh dài hạn trong quá trình suy luận, nơi KV-Cache và hạ tầng lưu trữ trở thành nút thắt quan trọng. DualPath được giới thiệu như một cách tiếp cận tối ưu hoá để phù hợp với xu hướng agent hoá của LLM.





