Ngày 11 tháng 4, một báo cáo đã công bố rằng OpenAI đã ra mắt một bộ tiêu chuẩn mới mang tên BrowseComp. Đây là một công cụ để đánh giá khả năng của các tác nhân AI trong việc tìm kiếm thông tin khó tiếp cận trên Internet. Bộ tiêu chuẩn này bao gồm 1.266 câu hỏi hết sức thách thức, được thiết kế để mô phỏng cuộc “săn tìm kho báu online” trong mạng lưới thông tin phức tạp. Điểm đặc biệt là những câu hỏi này khó tìm nhưng dễ để kiểm chứng. Chúng phủ sóng nhiều lĩnh vực như phim ảnh, truyền hình, công nghệ và lịch sử, khó hơn nhiều so với các bài kiểm tra hiện có như SimpleQA.
Theo cộng đồng mở AIGC, mức độ khó của bài kiểm tra là rất cao. Ngay cả các mô hình GPT-4o và GPT-4.5 của chính OpenAI cũng chỉ đạt độ chính xác 0,6% và 0,9%, gần như bằng 0. Ngay cả khi sử dụng GPT-4o với chức năng trình duyệt, độ chính xác cũng chỉ đạt 1,9%. Tuy vậy, mô hình tác nhân mới nhất của OpenAI, Deep Research, đạt độ chính xác lên tới 51,5%.
Thông tin này chỉ nhằm cung cấp thông tin thị trường và không cấu thành lời khuyên đầu tư.