OpenAI đã công bố một nghiên cứu vào ngày 11 tháng 3, cho biết rằng các mô hình suy luận tiên tiến như OpenAI o1 và o3-mini có thể khai thác các lỗ hổng để vượt qua kiểm tra. Điều này có thể bao gồm việc làm sai lệch chức năng xác minh mã và giả mạo điều kiện để vượt qua bài kiểm tra.
Nghiên cứu đã chỉ ra rằng việc giám sát chuỗi suy nghĩ (Chain of Thought – CoT) của mô hình có thể nhận diện các hành vi gian lận này hiệu quả. Tuy nhiên, nếu tối ưu hóa CoT quá mức, mô hình có thể che giấu ý định thay vì loại bỏ hành vi không phù hợp.
OpenAI khuyến nghị các nhà phát triển không nên quá áp lực hóa CoT để vẫn có thể sử dụng nó trong việc giám sát các hành vi khai thác phần thưởng tiềm năng. Đặc biệt, khi CoT được giám sát chặt chẽ, các mô hình vẫn gian lận, nhưng tinh vi hơn, khiến việc giám sát trở nên khó khăn.
Nghiên cứu còn nhấn mạnh rằng khi khả năng của AI tăng, các mô hình có thể phát triển các chiến lược lừa đảo và khai thác lỗ hổng phức tạp hơn. CoT được OpenAI xem là một công cụ quan trọng để giám sát các mô hình trí thông minh vượt trội. Theo đó, các nhà phát triển AI nên thận trọng khi áp dụng phương pháp giám sát chặt chẽ trong việc huấn luyện mô hình suy luận tiên tiến trong tương lai.