LISABench công bố đánh giá Q1/2026 nhằm xác định mô hình AI hàng đầu trong phát hiện lỗ hổng hợp đồng thông minh Web3 bằng thử nghiệm thực tế.
Bài kiểm thử được giới thiệu là benchmark lớn đầu tiên của lĩnh vực an ninh AI khi bước sang năm 2026, đồng thời mở chương trình dự đoán có thưởng qua bình chọn cộng đồng và công khai mã nguồn để cộng đồng kiểm chứng.
- LISABench mở đánh giá Q1/2026 cho phát hiện lỗ hổng hợp đồng thông minh Web3.
- 7 mô hình AI hàng đầu tham gia, gồm GPT-5.2, Gemini-3-pro-preview, Claude 4.5 Sonnet.
- Mở bình chọn dự đoán đội thắng và open-source codebase trên GitHub.
Benchmark Q1/2026 của LISABench là gì?
LISABench khởi động đánh giá Q1/2026 để chọn mô hình AI hiệu quả nhất trong phát hiện lỗ hổng hợp đồng thông minh Web3 bằng kiểm thử thực tế.
Thông báo được đưa ra ngày 5/1, gắn với bối cảnh năm 2026 khi lĩnh vực an ninh AI đón benchmark lớn đầu tiên. Trọng tâm là năng lực phát hiện lỗ hổng trong hợp đồng thông minh, một mảng then chốt với hệ sinh thái tiền điện tử do rủi ro khai thác và thất thoát tài sản thường xuất phát từ lỗi mã.
Cùng thời điểm, LISABench mở chương trình dự đoán kết quả có thưởng thông qua bình chọn cộng đồng, nhằm thu hút người dùng theo dõi cuộc đua và tạo thêm dữ liệu phản hồi về mức độ tin cậy, kỳ vọng của cộng đồng với từng mô hình.
Các mô hình tham gia và cách cộng đồng theo dõi
Đánh giá quy tụ 7 mô hình: KIMI K2, DeepSeek V3.2, QWen 3 30b-a3b, GLM 4.6, GPT-5.2, Gemini-3-pro-preview và Claude 4.5 Sonnet.
Danh sách bao gồm các mô hình từ Moonshot AI, Alibaba Cloud, Zhipu AI, OpenAI, Google và Anthropic, cùng cạnh tranh trên một sân chơi để so sánh trực tiếp. Việc đa dạng nhà phát triển giúp đối chiếu hiệu suất theo cùng tiêu chí, thay vì chỉ dựa vào tuyên bố riêng lẻ của từng dự án.
Bình chọn dự đoán đội chiến thắng Q1 hiện đã mở. Ngoài ra, LISABench cho biết bộ mã benchmark đã được open-source trên GitHub, cho phép nhà phát triển xem xét và tái lập thử nghiệm để đối chiếu kết quả.




