Các nhà nghiên cứu đã tấn công vào các robot được điều khiển bằng trí tuệ nhân tạo và thao túng chúng thực hiện những hành động thường bị chặn bởi các giao thức an toàn và đạo đức, chẳng hạn như gây va chạm hoặc kích nổ bom.
Các nhà nghiên cứu từ Khoa Kỹ thuật của Đại học Pennsylvania đã công bố phát hiện của họ trong một bài báo vào ngày 17 tháng 10, chi tiết cách thuật toán của họ, RoboPAIR, đạt tỷ lệ vượt qua các giao thức an toàn 100% trên ba hệ thống robot AI khác nhau chỉ trong vài ngày.
Thông thường, các nhà nghiên cứu nói rằng các robot được điều khiển bằng mô hình ngôn ngữ lớn (LLM) từ chối những yêu cầu thực hiện các hành động có hại, chẳng hạn như đẩy kệ lên người khác.
Những chatbot như ChatGPT có thể bị phá khóa để tạo ra văn bản nguy hiểm. Nhưng còn robot thì sao? Liệu robot điều khiển bằng AI có thể bị phá khóa để thực hiện những hành động nguy hiểm trong thế giới thực?
Nghiên cứu mới của chúng tôi phát hiện rằng phá khóa robot điều khiển bằng AI không chỉ có thể xảy ra.
Nó thật sự dễ dàng đáng lo ngại. 🧵 pic.twitter.com/GzG4OvAO2M
— Alex Robey (@AlexRobey23) October 17, 2024
“Những kết quả của chúng tôi lần đầu tiên tiết lộ rằng những rủi ro của các LLM bị phá khóa vượt xa việc chỉ tạo ra văn bản, với khả năng rõ ràng rằng những robot bị phá khóa có thể gây ra thiệt hại trong thế giới thực,” các nhà nghiên cứu viết.
Dưới sự ảnh hưởng của RoboPAIR, các nhà nghiên cứu cho biết họ có thể kích hoạt những hành động có hại “với tỷ lệ thành công 100%” trong các robot thử nghiệm với các nhiệm vụ từ kích nổ bom đến chặn lối thoát hiểm khẩn cấp và gây va chạm cố ý.
Theo các nhà nghiên cứu, họ đã sử dụng Jackal của Clearpath Robotics, một phương tiện có bánh xe; Dolphin LLM của NVIDIA, một trình mô phỏng tự lái; và Go2 của Unitree, một robot bốn chân.
Sử dụng RoboPAIR, các nhà nghiên cứu đã khiến Dolphin tự lái LLM va chạm với một chiếc xe buýt, một rào chắn, và người đi bộ, cũng như lờ đi các đèn giao thông và biển báo dừng.
Nhà nghiên cứu cũng đã khiến Jackal robot tìm địa điểm nguy hiểm nhất để kích nổ bom, chặn một lối thoát hiểm khẩn cấp, xô đổ kệ hàng trong kho lên một người và va chạm với người trong phòng.
Các nhà nghiên cứu từ Khoa Kỹ thuật của Đại học Pennsylvania tuyên bố đã tìm ra cách thao túng robot điều khiển bằng AI để thực hiện các hành động có hại 100% thời gian. Nguồn: Khoa Kỹ thuật Đại học Pennsylvania
Họ cũng đã khiến Go2 của Unitree thực hiện các hành động tương tự, như chặn lối thoát và chuyển bom.
Tuy nhiên, các nhà nghiên cứu cũng nhận thấy cả ba đều dễ bị thao túng dưới hình thức khác, chẳng hạn như yêu cầu robot thực hiện một hành động mà nó đã từ chối trước đó, nhưng với ít chi tiết về hoàn cảnh hơn.
Ví dụ, yêu cầu một robot đang mang bom di chuyển về phía trước, sau đó ngồi xuống, thay vì yêu cầu nó chuyển bom, cũng mang lại cùng kết quả.
Trước khi công bố ra công chúng, các nhà nghiên cứu cho biết họ đã chia sẻ các phát hiện này, bao gồm bản thảo của bài báo, với các công ty hàng đầu về AI và các nhà sản xuất robot được sử dụng trong nghiên cứu.
Alexander Robey, một trong những tác giả, nói rằng việc giải quyết các lỗ hổng này còn đòi hỏi hơn cả việc vá lỗi phần mềm đơn giản, yêu cầu cần phải đánh giá lại việc tích hợp AI vào robot và hệ thống vật lý dựa trên những phát hiện của bài báo.
“Điều quan trọng cần nhấn mạnh ở đây là các hệ thống trở nên an toàn hơn khi bạn phát hiện ra điểm yếu của chúng. Điều này cũng đúng trong an ninh mạng và an toàn AI,” ông nói.
“Thực tế, thực hành đội đỏ AI, một phương pháp an toàn bao gồm việc kiểm tra hệ thống AI để phát hiện các mối đe dọa và lỗ hổng tiềm ẩn, là rất cần thiết để bảo vệ các hệ thống AI sáng tạo—bởi vì một khi bạn xác định được những điểm yếu, bạn có thể kiểm tra và thậm chí huấn luyện các hệ thống này để tránh chúng,” Robey bổ sung.