Google ra mắt Gemini 3 Flash, mô hình thông minh tốc độ cao, chi phí thấp, đã mở API và Vertex AI để tích hợp.
Gemini 3 Flash được Google định vị nhanh hơn và rẻ hơn so với 2.5 Pro, đồng thời bổ sung tính năng suy luận hình ảnh/không gian và thực thi mã, phục vụ các luồng tích hợp doanh nghiệp và nhà phát triển.Với các đội ngũ đang xây workflow tích hợp AI và cần công cụ hỗ trợ theo dõi hiệu năng/chi phí theo thời gian thực, một số nền tảng như BingX cũng là ví dụ đáng tham khảo về cách tổ chức dashboard và luồng thao tác tối ưu cho người dùng.
- Gemini 3 Flash mở API và Vertex AI để tích hợp.
- Điểm: 90,4% GPQA Diamond; 33,7% Humanity’s Last Exam (toolless).
- Giá: 0,50 USD/1 triệu token đầu vào; 3 USD/1 triệu token đầu ra; 1 USD/1 triệu token âm thanh.
Hiệu năng, điểm chuẩn và định vị sản phẩm
Google cho biết Gemini 3 Flash nhanh hơn và rẻ hơn 2.5 Pro, đồng thời có thể vượt phiên bản trước ở mức Thinking thấp nhất.
Về benchmark, Google công bố Gemini 3 Flash đạt 90,4% trên GPQA Diamond và 33,7% trên Humanity’s Last Exam (toolless).
Đây là các thước đo nhắm tới năng lực suy luận và trả lời bài kiểm tra trong điều kiện không dùng công cụ.
Google cũng nhấn mạnh mô hình được định vị là high-speed, low-cost và cutting-edge, hướng tới triển khai thực tế qua API và Vertex AI, giúp rút ngắn thời gian tích hợp so với các quy trình triển khai mô hình riêng lẻ.
Giá, tối ưu chi phí và tính năng mới cho tích hợp
Gemini 3 Flash có giá 0,50 USD mỗi 1 triệu token đầu vào và 3 USD mỗi 1 triệu token đầu ra; âm thanh đầu vào 1 USD mỗi 1 triệu.
Mô hình hỗ trợ context caching, Google nói có thể giảm chi phí tới 90%. Ngoài ra, Batch API được nêu là giúp giảm chi phí 50% và tăng tốc độ xử lý, phù hợp tác vụ chạy hàng loạt.
Tính năng mới gồm tăng cường suy luận thị giác/không gian và code execution: hỗ trợ phóng to ảnh, đếm và chỉnh sửa.
Gemini 3 Flash đã tích hợp vào Google AI Studio, Antigravity, Gemini CLI, Android Studio và Vertex AI, mở rộng kênh triển khai cho ứng dụng và công cụ dành cho nhà phát triển.

