Thời đại của các chatbot phản hồi đơn tầng (single-turn chatbots) đang nhanh chóng nhường chỗ cho kỷ nguyên của các AI Agent vận hành dài hạn (long-running agents). Đây là những hệ thống đại lý thông minh có khả năng tự suy luận, duy trì ngữ cảnh nhất quán, sử dụng linh hoạt các công cụ và hoạt động hiệu quả qua hàng trăm lượt tương tác (multi-turn) để hoàn thành các quy trình công việc phức tạp.
Tuy nhiên, các quy trình đa đại lý (multi-agent) này khiến lượng token tăng lên một cách chóng mặt. Để giải quyết một bài toán, các AI Agent phải liên tục lên kế hoạch, gọi công cụ, kích hoạt các đại lý phụ, tiếp nhận thông tin rồi đẩy ngược lịch sử, kết quả đầu ra và các bước suy luận vào lại mô hình. Khi tác vụ càng kéo dài, việc giao tiếp liên tục này làm tăng mạnh chi phí vận hành và dễ dẫn đến rủi ro “lệch mục tiêu” (goal drift).
Để giải quyết thách thức này, các nhà phát triển cần một hệ thống phối hợp đa mô hình: Sử dụng các mô hình suy luận tiên tiến (frontier reasoning models) làm trung tâm điều phối và lập kế hoạch phức tạp, kết hợp với các mô hình nhỏ, hiệu năng cao để thực thi khối lượng lớn, xác thực dữ liệu và gọi công cụ (tool calling).
Chính vì lý do đó, NVIDIA chính thức phát hành NVIDIA Nemotron 3 Ultra – một mô hình mã nguồn mở được thiết kế chuyên biệt nhằm giúp các AI Agent hoàn thành các tác vụ dài hạn nhanh hơn đáng kể với chi phí tối ưu nhất.
1. NVIDIA Nemotron 3 Ultra Là Gì? Trọng Tâm Điều Phối Hệ Thống AI Agent
NVIDIA Nemotron 3 Ultra là mô hình ngôn ngữ lớn sử dụng kiến trúc Mixture-of-Experts (MoE – Hỗn hợp chuyên gia) với tổng cộng 550 tỷ tham số (550B), trong đó có 55 tỷ tham số kích hoạt (55B) cho mỗi lượt xử lý. Mô hình được xây dựng để trở thành “bộ não” điều phối và suy luận cấp cao trong các hệ thống Agentic AI.
Trong bất kỳ quy trình làm việc nào của Agent, phần lớn các lượt gọi lệnh là các tác vụ thông thường, nhưng luôn có một nhóm tác vụ cốt lõi đòi hỏi khả năng suy luận chuyên sâu. Nemotron 3 Ultra sinh ra để xử lý các lệnh khó này: duy trì các quyết định kiến trúc phần mềm xuyên suốt các phiên lập trình dài, tổng hợp các bằng chứng mâu thuẫn từ hàng trăm nguồn nghiên cứu, hoặc xác thực các thiết kế vi mạch dựa trên hàng nghìn điều kiện ràng buộc phức tạp.
Bảng So Sánh Hiệu Năng Vượt Trội Của Nemotron 3 Ultra
Dù sở hữu kích thước tinh gọn hơn, Nemotron 3 Ultra vẫn mang lại độ chính xác ở cấp độ đỉnh cao (frontier accuracy) so với các mô hình lớn hơn trong phân khúc:
| Tiêu chí đánh giá / Điểm chuẩn (Benchmark) | Nemotron 3 Ultra (550B) | GLM 5.1 (744B) | Kimi K2.6 (1T) | Qwen3.5 (397B) |
|---|---|---|---|---|
| Hiệu suất Agent (PinchBench) | 91% | 84% | 91% | 89% |
| Lập kế hoạch dài hạn(EnterpriseOps-Gym) | 33% | 40% | 29% | 30% |
| Khả năng Lập trình (Terminal-Bench 2.0) | 54% | 64% | 67% | 53% |
| Khả năng Tuân thủ lệnh(IFBench) | 82% | 77% | 74% | 78% |
| Tác vụ Tri thức (GDPVal-AA) | 1,448 | 1,594 | 1,508 | 1,192 |
| Tác vụ Chuyên môn (ProfBench – Search) | 56% | 46% | 56% | 53% |
| Xử lý Ngữ cảnh dài (Ruler @1M) | 95% | Không hỗ trợ (max 256K) | Không hỗ trợ (max 256K) | 90% |
Bảng 1: So sánh hiệu năng cho thấy Nemotron 3 Ultra đạt độ chính xác hàng đầu dù có kích thước tối ưu hơn.
Tăng Tốc Độ Xử Lý Gấp 5 Lần
Không chỉ chính xác, Nemotron 3 Ultra còn sở hữu tốc độ đáng kinh ngạc. Mô hình đạt tốc độ xử lý (throughput) cao gấp 5 lần so với các mô hình mã nguồn mở cùng phân khúc (theo dữ liệu đo lường từ Artificial Analysis sử dụng các endpoint Blackbox). Điều này giúp các AI Agent chạy đường dài hoàn thành công việc nhanh chóng và mượt mà hơn.

Tiết Kiệm 30% Chi Phí Vận Hành
Nhờ cấu trúc tối ưu, trong các thử nghiệm thực tế trên hệ thống SWE-bench và Terminal bench 2.0, Nemotron 3 Ultra hoàn thành các bài kiểm tra với tổng số lượng token ít hơn và số lượng token trên mỗi lượt phản hồi thấp hơn đáng kể so với các mô hình đối thủ. Điều này giúp giảm chi phí vận hành cho các tác vụ AI Agent lên đến 30%.

2. 5 Đột Phá Công Nghệ Cốt Lõi Trên Nemotron 3 Ultra
Để giải quyết bài toán đánh đổi giữa hiệu suất xử lý và độ chính xác của các mô hình suy luận dung lượng lớn, NVIDIA đã tích hợp các đổi mới kiến trúc mang tính bứt phá:
- Huấn luyện tối ưu cho Agent (Post-trained for agent harness): Nemotron Ultra được tinh chỉnh sâu (post-trained) thông qua các thư viện mã nguồn mở NVIDIA NeMo RL và Gym với một trong những kho dữ liệu tác vụ, giải quyết bài toán và gọi công cụ dài hạn lớn nhất thế giới. Mô hình được thiết kế để tự động lên kế hoạch, đọc dữ liệu quan sát, ủy quyền cho agent phụ và tự sửa lỗi qua nhiều lượt tương tác.
- Kiến trúc lai Mamba-Transformer (Hybrid Mamba Transformer): Các lớp Mamba giúp tối ưu hóa hiệu suất xử lý chuỗi đối với các khối lượng công việc có ngữ cảnh cực dài (long-context workloads), trong khi các lớp Transformer đảm bảo khả năng truy xuất chính xác từng chi tiết nhỏ khi Agent cần lọc thông tin từ các cửa sổ ngữ cảnh khổng lồ.
- Định dạng độ chính xác NVFP4 (NVFP4 Precision): Cùng một checkpoint mã nguồn của mô hình có thể chạy mượt mà trên tất cả các kiến trúc GPU của NVIDIA từ Hopper (H100), Blackwell (GB200) cho đến Ampere nhờ các nhân định lượng (quantization kernels) chuyên biệt. NVFP4 cung cấp throughput cao gấp 5 lần trên mỗi GPU Blackwell so với định dạng BF16 truyền thống ở cùng mức độ phản hồi.
- Cơ chế LatentMoE: Hỗ trợ định tuyến chuyên gia (expert routing) hiệu quả hơn, cho phép mô hình xử lý mượt mà các luồng công việc đan xen từ suy luận logic, tạo mã nguồn, gọi công cụ cho đến các logic chuyên biệt của từng ngành nghề.
- Dự đoán đa mã thông báo (Multi-token prediction – MTP): Giúp giảm đáng kể thời gian phản hồi bằng cách dự đoán trước nhiều token tương lai trong một lượt xử lý duy nhất (forward pass), tăng tốc độ tạo văn bản dài cho các quy trình phức tạp.
3. Phương Pháp Huấn Luyện Mới: Multi-Teacher On-Policy Distillation (MOPD)
Một trong những điểm nhấn công nghệ lớn nhất của đợt ra mắt này là phương pháp huấn luyện Chưng cất tri thức trực tuyến đa giáo viên (MOPD).

Trong quá trình này, mô hình Nemotron 3 Ultra (mô hình học sinh) sẽ tự đưa ra các phương án giải quyết tác vụ, sau đó nhận tín hiệu phản hồi và chấm điểm trực tiếp từ hơn 10 mô hình giáo viên chuyên biệt (mỗi mô hình giáo viên được huấn luyện riêng để trở thành chuyên gia trong một lĩnh vực cụ thể).
- Vận hành bất đồng bộ (Asynchronous): Quá trình tạo phản hồi của học sinh, chấm điểm của giáo viên và tối ưu hóa mô hình được thiết kế chạy song song (fully pipelined) để đạt hiệu suất cao nhất.
- Tiến hóa liên tục (Iterative co-evolution): Sau mỗi chu kỳ huấn luyện thành công một checkpoint mới, các mô hình giáo viên lại được nâng cấp dựa trên chính nền tảng của học sinh vừa cải tiến, tạo ra một vòng lặp phát triển năng lực không ngừng.
Các nhà phát triển có thể tự thử nghiệm các công thức huấn luyện MOPD này thông qua kho mã nguồn mở NeMo-RL.
4. Dữ Liệu Huấn Luyện Minh Bạch & Khả Năng Tinh Chỉnh Sâu
NVIDIA cam kết phát hành các đường ống dữ liệu huấn luyện (training data pipeline) dưới các điều khoản mở nhất có thể, đáp ứng nhu cầu minh bạch và chứng thực nguồn gốc dữ liệu khắt khe của các doanh nghiệp và tổ chức chính phủ.
- Bổ sung dữ liệu tiền huấn luyện chuyên ngành (Domain-specific pre-training data): Trên nền tảng 10 nghìn tỷ (10T) token có sẵn, Nemotron 3 Ultra được nạp thêm 212 tỷ (212B) token mới tập trung vào các mảng kiến thức chuyên sâu bao gồm:
- 4B token dữ liệu pháp lý tổng hợp (tăng điểm số LegalBench từ 64.6% lên 74.7%).
- 35B token dữ liệu tổng hợp dựa trên Wikipedia (tăng điểm SimpleQA từ 40.2% lên 50.2%).
- 173B token GitHub cập nhật mới nhất tính đến ngày 30 tháng 9 năm 2025.
- Dữ liệu sau huấn luyện (Post-training) và môi trường RL: NVIDIA phát hành thêm 10 triệu mẫu SFT mới, 1 triệu tác vụ RL đa ngành và 15 môi trường RL hoàn toàn mới. Kết quả là mô hình đạt điểm số SWEBench Verified ấn tượng từ 65% đến 70.4% trên nhiều framework đại lý khác nhau (Pi, OpenHands, Hermes, OpenCode, Mini SWE Agent).
Nhờ các thư viện NVIDIA NeMo, các lập trình viên có thể dễ dàng tinh chỉnh (fine-tune) mô hình thông qua các phương pháp LoRA, SFT hoặc Học tăng cường (Reinforcement Learning – GRPO).
5. Xây Dựng Hệ Thống AI Agent An Toàn Với NVIDIA NemoClaw và OpenShell
Để xây dựng một hệ thống AI Agent hoạt động an toàn và liên tục 24/7, NVIDIA cung cấp một hệ sinh thái tham chiếu toàn diện:
- Hermes Agent & OpenClaw: Các khung điều phối cung cấp vòng lặp quản lý, bộ nhớ và công cụ xử lý đa lượt. Hermes Agent hiện đã chính thức hỗ trợ toàn diện cho Nemotron.
- NVIDIA OpenShell: Môi trường thực thi bảo mật (thuộc bộ NVIDIA Agent Toolkit) giúp chạy an toàn các đoạn mã nguồn do AI Agent tự động tạo ra.
- NVIDIA NemoClaw: Bản thiết kế mã nguồn mở giúp liên kết toàn bộ hệ thống. Chỉ với một câu lệnh đơn giản, NemoClaw sẽ tự động cài đặt runtime OpenShell, tạo môi trường bảo vệ vững chắc cho các AI Agent hoạt động.
Ra Mắt Hai Mô Hình Bổ Trợ Mới:
- Nemotron 3.5 Content Safety (4B): Mô hình rào chắn an toàn (guardrail model) nhỏ gọn giúp phân loại, ngăn chặn các nội dung vi phạm chính sách hoặc không an toàn trên cả văn bản và hình ảnh, hỗ trợ 23 danh mục an toàn và 12 ngôn ngữ.
- Nemotron 3.5 ASR (0.6B): Mô hình nhận dạng giọng nói chuẩn streaming với độ trễ dưới 100ms, hỗ trợ hơn 40 ngôn ngữ, lý tưởng cho việc xây dựng các AI Agent tương tác bằng giọng nói thời gian thực.
6. Bắt Đầu Tích Hợp Và Sử Dụng Ngay Hôm Nay
NVIDIA Nemotron 3 Ultra hiện đã mở hoàn toàn—bao gồm cả trọng số mô hình (weights), dữ liệu và công thức huấn luyện—cho phép các nhà phát triển triển khai ở bất cứ đâu dưới dạng vi dịch vụ NVIDIA NIM.
- Trải nghiệm trực tuyến: Người dùng có thể dùng thử mô hình thông qua gói Perplexity Pro (hoặc API), OpenRouter, Anaconda, hoặc trực tiếp tại build.nvidia.com.
- Tải trọng số mô hình: Khách hàng có thể tải trực tiếp phiên bản định lượng NVFP4 từ Hugging Face.
- Hỗ trợ hạ tầng đám mây đám mây: Mô hình sẵn sàng chạy trên Amazon SageMaker JumpStart, Google Cloud, Microsoft Foundry, Oracle Cloud cùng hàng loạt đối tác phần cứng và phần mềm lớn như vLLM, SGLang, Together AI, CoreWeave, Dell Enterprise Hub và Ollama.
Để biết thêm chi tiết kỹ thuật chuyên sâu, bạn có thể tham khảo thêm tại Báo cáo kỹ thuật của Nemotron 3 Ultra.






![OriginTrail [TRAC] tăng 77% nhờ Upbit và làn sóng AI - Tin Tức Bitcoin - Cập Nhật Tin Tức Coin Mới Nhất 24/7 2026 OriginTrail [TRAC] tăng 77% nhờ Upbit và làn sóng AI](https://tintucbitcoin.com/wp-content/uploads/2026/05/1779127417_OriginTrail-TRAC-tang-77-nho-Upbit-va-lan-song-AI-120x86.png)



