DeepSeek công bố paper học thuật về hệ thống suy luận DualPath, tối ưu hiệu năng suy luận LLM cho tác vụ agent, giúp tăng throughput suy luận offline tối đa 1,87 lần và tăng số agent runs/giây trung bình cho dịch vụ online 1,96 lần.

Trong lúc thị trường chờ mô hình flagship thế hệ mới DeepSeek V4, nhóm DeepSeek âm thầm phát hành nghiên cứu tập trung vào hạ tầng suy luận cho agent, khi LLM chuyển dịch từ chatbot một lượt sang hệ thống tự lập kế hoạch, gọi công cụ và xử lý tác vụ qua nhiều vòng tương tác.

NỘI DUNG CHÍNH

Paper mới giới thiệu hệ thống suy luận DualPath cho LLM dưới agent workloads.
Cơ chế dual-path read KV-Cache giúp phân bổ lại tải mạng lưu trữ.
Offline throughput tăng tối đa 1,87 lần; online agent runs/giây tăng 1,96 lần.

DualPath cải thiện hiệu năng suy luận LLM như thế nào

DualPath dùng cơ chế dual-path read KV-Cache (tương tự memory cache) để tái phân bổ tải cho mạng lưu trữ, qua đó tăng hiệu năng suy luận khi LLM chạy theo kiểu agent.

Theo paper, việc đưa cơ chế dual-path read KV-Cache vào đường đọc giúp dịch chuyển và phân phối lại storage network load. Kết quả đo được: offline inference throughput tăng tối đa 1,87 lần, còn dịch vụ online tăng average agent runs per second lên 1,96 lần.

Xem thêm: Ủy ban quản trị Uniswap cân nhắc bật phí giao thức cho V3

Trọng tâm tối ưu nằm ở inference performance under agent workloads, tức tải suy luận phát sinh khi một agent phải liên tục truy xuất ngữ cảnh và trạng thái qua nhiều bước. DualPath hướng tới tối ưu luồng truy cập KV-Cache để phục vụ các vòng tương tác dài, thay vì chỉ tối ưu cho chat ngắn.

Dịch chuyển từ chatbot sang agent đang đổi mô hình tải suy luận

Paper nêu LLM đang chuyển từ chatbot một lượt và mô hình suy luận độc lập sang agent systems, khiến inference workloads đổi từ tương tác người–mô hình sang người–mô hình–môi trường.

Nhóm DeepSeek mô tả agent có khả năng autonomous planning, invoking tools và giải quyết tác vụ thực tế thông qua multi-turn interactions. Khi đó, số vòng tương tác có thể lên tới hàng chục hoặc hàng trăm vòng, làm đổi đặc trưng tải hệ thống so với kịch bản hỏi–đáp truyền thống.

Sự thay đổi này đặt trọng tâm vào khả năng duy trì và truy xuất ngữ cảnh dài hạn trong quá trình suy luận, nơi KV-Cache và hạ tầng lưu trữ trở thành nút thắt quan trọng. DualPath được giới thiệu như một cách tiếp cận tối ưu hoá để phù hợp với xu hướng agent hoá của LLM.

Tuyên bố miễn trừ: Bài viết này chỉ nhằm mục đích cung cấp thông tin dưới dạng blog cá nhân, không phải là khuyến nghị đầu tư. Nhà đầu tư cần tự nghiên cứu kỹ lưỡng trước khi đưa ra quyết định và chúng tôi không chịu trách nhiệm đối với bất kỳ quyết định đầu tư nào của bạn.

Theo Nghị quyết số 05/2025/NQ-CP ngày 09/09/2025 của Chính phủ về việc thí điểm triển khai thị trường tài sản số tại Việt Nam, TinTucBitcoin.com hiện chỉ cung cấp thông tin cho độc giả quốc tế và không phục vụ người dùng tại Việt Nam cho đến khi có hướng dẫn chính thức từ cơ quan chức năng.