Google DeepMind mới đây đã ra mắt mô hình ngôn ngữ mới mang tên Gemini Robotics On-Device. Đặc biệt, mô hình này có khả năng thực hiện nhiệm vụ ngay trên robot mà không cần kết nối internet, mở ra một kỷ nguyên mới cho công nghệ robot tự trị.
Phát triển dựa trên mô hình Gemini Robotics AI ra mắt vào tháng 3, phiên bản On-Device có thể điều khiển chuyển động của robot một cách tinh tế. Google cho biết, mô hình này nhỏ gọn, tối ưu để vận hành trực tiếp trên robot. Các nhà phát triển có thể điều chỉnh và tinh chỉnh mô hình thông qua các câu lệnh ngôn ngữ tự nhiên, đáp ứng đa dạng yêu cầu.
Gemini Robotics On-Device vượt trội so với các mô hình tiền nhiệm
We’re bringing powerful AI directly onto robots with Gemini Robotics On-Device. 🤖
It’s our first vision-language-action model to help make robots faster, highly efficient, and adaptable to new tasks and environments – without needing a constant internet connection. 🧵 pic.twitter.com/1Y21D3cF5t
— Google DeepMind (@GoogleDeepMind) 24 tháng 6, 2025
Carolina Parada, Trưởng bộ phận robotics tại Google DeepMind, cho biết mô hình Gemini Robotics gốc ứng dụng phương pháp lai, có thể vận hành trên thiết bị và trên đám mây. Tuy nhiên, với phiên bản chạy trực tiếp trên thiết bị mới, người dùng vẫn có thể tiếp cận gần như toàn bộ tính năng offline của mô hình flagship.
Google khẳng định hiệu năng của Gemini Robotics On-Device xấp xỉ mô hình chạy trên đám mây trong nhiều bài kiểm tra. Đồng thời, nó vượt trội hơn các mô hình vận hành trên thiết bị khác trong các tiêu chuẩn chung, dù hãng chưa công bố tên cụ thể.
“Mô hình lai Gemini Robotics vẫn mạnh hơn, nhưng chúng tôi rất bất ngờ về sức mạnh của phiên bản on-device. Đây có thể coi là mô hình khởi đầu hoặc phù hợp cho những ứng dụng có kết nối kém.”
– Carolina Parada, Trưởng bộ phận Robotics tại Google DeepMind.
Đại diện Google mô tả các robot vận hành mô hình địa phương có thể gỡ túi, gấp quần áo. Mặc dù được huấn luyện chính cho robot ALOHA, nó cũng thể hiện hiệu quả trên robot hai tay Franka FR3 và robot hình người Apollo của Apptronik.
Franka FR3 đã thành công trong các kịch bản xử lý vật thể mới như lắp ráp trên dây chuyền công nghiệp. Google cho biết, các nhà phát triển có thể huấn luyện robot qua 50 đến 100 lần thao tác mẫu trên bộ mô phỏng vật lý MuJoCo bằng chính các mô hình này.
DeepMind cũng phát hành bộ công cụ phát triển phần mềm (SDK) Gemini Robotics SDK hỗ trợ đầy đủ quá trình sử dụng mô hình, từ truy cập điểm checkpoint, phục vụ mô hình, đánh giá trên robot và môi trường mô phỏng, đến tải dữ liệu và tinh chỉnh mô hình. Phiên bản on-device cùng SDK sẽ được cấp cho nhóm tester tin cậy khi Google tiếp tục tối ưu hóa các rủi ro an toàn.
Các ông lớn công nghệ bước chân vào cuộc đua robot
Bên cạnh Google, nhiều công ty công nghệ khác cũng thể hiện sự quan tâm sâu sắc đến lĩnh vực robot tích hợp AI. Nvidia đang xây dựng nền tảng tạo mô hình nền tảng cho robot hình người (humanoid). CEO Jensen Huang khẳng định đây là thách thức AI hấp dẫn nhất hiện nay.
Huang cho biết vấn đề robot hình người đang là chủ đề gây tranh cãi, thu hút hàng tỷ USD vốn đầu tư mạo hiểm song cũng kèm theo không ít hoài nghi.
Nvidia từng thúc đẩy đổi mới robot qua các sáng kiến Isaac và Jetson. Tháng 3 năm ngoái, tại hội nghị nhà phát triển GTC, công ty giới thiệu dự án Project GROOT – một nền tảng mô hình nền tảng đa dụng dành cho robot hình người, tích hợp phần cứng Nvidia mới nhất.
Cũng không kém phần nổi bật là Hugging Face, khi phát triển các mô hình và tập dữ liệu mở cho robot, đồng thời trực tiếp tham gia nâng cao khả năng robot hóa. Họ vừa giới thiệu mô hình SmolVLA – một mô hình AI tầm nhìn-ngôn ngữ-hành động (VLA) dựa trên dữ liệu cộng đồng chia sẻ, có hiệu suất vượt trội mô hình lớn hơn cả trong môi trường thực và mô phỏng.
SmolVLA nhằm mục tiêu phổ cập quyền truy cập mô hình VLA và đẩy nhanh nghiên cứu về thế hệ robot đa năng. Năm ngoái, Hugging Face cho ra mắt bộ công cụ LeRobot tập trung vào robot, đồng thời mua lại startup Pollen Robotics (Pháp) và giới thiệu hệ thống robot giá rẻ, bao gồm cả robot hình người để bán ra thị trường.