Alibaba vừa giới thiệu bộ công cụ Qwen-Robot, tập hợp ba mô hình nền tảng được thiết kế để tạo nên nền tảng phần mềm hoàn chỉnh cho trí tuệ nhân tạo thể hiện (embodied AI). Giải pháp này đóng vai trò như một hệ điều hành cho lĩnh vực robot, giúp giải quyết các thách thức về di chuyển, thao tác vật lý và mô phỏng môi trường.
Thay vì chỉ dựa vào các mô hình ngôn ngữ lớn (LLM) để ra quyết định, Qwen-Robot cung cấp khả năng thích ứng cao hơn thông qua sự kết hợp của ba thành phần độc lập. Động thái này được kỳ vọng sẽ tạo ra bước ngoặt tương tự như sự xuất hiện của hệ điều hành Android trong kỷ nguyên di động, đặt nền móng cho nền kinh tế robot trong tương lai.
Điểm nhấn về bộ công cụ Qwen-Robot:
- Qwen-RobotNav: Tối ưu hóa các tác vụ điều hướng như theo dõi mục tiêu, tìm kiếm đối tượng và lái xe tự động bằng giao diện tham số hóa.
- Qwen-RobotManip: Giải quyết sự không tương thích giữa các không gian hành động của các loại robot khác nhau, cho phép điều khiển linh hoạt nhiều dạng cấu trúc phần cứng.
- Qwen-RobotWorld: Mô hình thế giới dựa trên video, sử dụng ngôn ngữ tự nhiên làm giao diện hành động chung để dự đoán các quy luật vật lý và môi trường thực tế.
Cơ chế hoạt động của Qwen-RobotNav
Qwen-RobotNav tích hợp nhiều kỹ thuật điều hướng phức tạp vào một giao diện duy nhất, cho phép lập kế hoạch có thể cấu hình linh hoạt trong quá trình hoạt động. Thay vì sử dụng các chiến lược cố định, hệ thống cho phép điều chỉnh ngân sách token, phân rã thời gian và trọng số camera để thích nghi với các tình huống thực tế khác nhau.
Dữ liệu huấn luyện của mô hình bao gồm 15,6 triệu mẫu với sự ngẫu nhiên hóa cao. Kết quả kiểm thử cho thấy tỷ lệ thành công đạt 76,5% trên chuẩn VLN-CE RxR và khả năng theo dõi mục tiêu di động đạt 90% trên EVT-Bench, khẳng định hiệu quả trong môi trường thực.
Giải pháp cho sự khác biệt giữa các robot
Một trong những rào cản lớn nhất của robot hiện nay là mỗi loại phần cứng (như cánh tay máy Franka hay robot bimanual ALOHA) lại có cách định nghĩa hành động khác nhau. Qwen-RobotManip đã được huấn luyện với gần 38.100 giờ dữ liệu từ các bộ dữ liệu mở và video thực tế để kết nối các không gian hành động không tương thích này.
Nhờ cách tiếp cận này, mô hình đã vươn lên dẫn đầu bảng xếp hạng RoboChallenge Table30-v1, với hiệu suất vượt trội hơn 20% so với các phương pháp tiếp cận trước đây. Hệ thống cho phép điều khiển các cấu trúc khác nhau, từ cánh tay máy đến robot hình người, thông qua một lớp trung gian đồng nhất.
Tầm nhìn về Qwen-RobotWorld
Qwen-RobotWorld được coi là thành phần tham vọng nhất, hoạt động như một mô hình thế giới có điều kiện bằng ngôn ngữ. Hệ thống này sử dụng ngôn ngữ tự nhiên làm giao diện chung để điều khiển robot thực hiện các hành động phức tạp, bất kể robot đó là xe tự hành hay cánh tay máy.
Với kho dữ liệu Embodied World Knowledge gồm 8,6 triệu cặp video-văn bản (tương đương 200 triệu khung hình), mô hình có khả năng dự đoán chính xác các hiện tượng vật lý như trọng lực, động lực học chất lỏng và sự va chạm. Đây hiện là mô hình dẫn đầu trên các chuẩn đánh giá như EWMBench và DreamGen Bench về độ chân thực của môi trường mô phỏng.
Sự khác biệt trong chiến lược của Alibaba
Sự khác biệt cốt lõi của Alibaba nằm ở sự tích hợp dọc, từ thiết kế chip, điện toán đám mây cho đến các mô hình ứng dụng, giúp họ kiểm soát toàn bộ chuỗi giá trị. Việc chọn con đường mã nguồn mở cũng giúp Alibaba tạo sự khác biệt so với các đối thủ cạnh tranh vốn đang phụ thuộc vào dữ liệu robot độc quyền.
Mặc dù vậy, các chuyên gia lưu ý rằng khoảng cách từ các mô hình phần mềm hiện nay đến việc triển khai robot trong gia đình vẫn còn rất xa. Những thách thức về tiếng ồn cảm biến, sự trôi dạt của thiết bị truyền động và các tình huống phát sinh ngoài ý muốn (long-tail cases) vẫn là những rào cản thực tế mà bất kỳ nỗ lực nào trong lĩnh vực robot đều phải đối mặt.
Các câu hỏi thường gặp (FAQ)
Qwen-Robot Suite có phải là một robot phần cứng không?
Không, đây là tập hợp các mô hình phần mềm, đóng vai trò “bộ não” cho robot. Các mô hình này cần được tích hợp trên phần cứng từ các đơn vị sản xuất như AgileX, Franka, hay Unitree để có thể vận hành thực tế.
Mô hình này có phải là LLM giống ChatGPT không?
Dù sử dụng kiến trúc AI tạo sinh, đây không phải là LLM thuần túy. Thay vì chỉ dự đoán từ ngữ, các mô hình này tập trung vào việc hiểu các quy luật vật lý, mối quan hệ không gian và hậu quả của các hành động vật lý trong môi trường thực.
Alibaba đã cung cấp quyền truy cập công khai cho bộ công cụ này chưa?
Hiện tại, Alibaba chưa công bố thông tin chi tiết về giá cả, thời gian ra mắt cụ thể hay đối tượng khách hàng nào được quyền truy cập ngoài các chương trình thử nghiệm ban đầu.
Tổng kết
Bộ công cụ Qwen-Robot của Alibaba đại diện cho bước tiến kỹ thuật quan trọng trong việc thống nhất các thành phần điều hướng, thao tác và hiểu biết vật lý cho robot thông qua một hệ thống phần mềm mở. Dù vẫn đối mặt với nhiều thách thức để triển khai thực tế trên diện rộng, đây là bước đi chiến lược quan trọng của Alibaba trong việc định hình nền kinh tế robot.










