CEO Coinbase Brian Armstrong cho biết công ty đã gần như giảm một nửa chi phí AI trong khi lượng token sử dụng vẫn tăng.
Ông nói Coinbase không kiểm soát chi tiêu bằng cách siết hạn mức hay thêm cảnh báo, mà tập trung vào ba lớp hạ tầng: mô hình mặc định, định tuyến tác vụ thông minh và hệ thống cache. Các bước này được dùng để tự động chọn mô hình phù hợp hơn với chi phí.
Coinbase đang đặt các mô hình open-weight như GLM 5.2 và Kimi 2.7 làm lựa chọn mặc định qua LLM gateway. Theo Armstrong, 91% nhân viên không bao giờ chạm trần sử dụng nên công ty đã bỏ cách hạ quota và gắn cảnh báo.
Hệ thống của Coinbase còn tự tiền xử lý prompt, kết hợp cache và phân bổ mô hình theo giá. Ở mảng LibreChat, tỷ lệ cache hit được nâng từ 5% lên 60%, trong khi công ty chuẩn hóa cách rút gọn ngữ cảnh để giảm token lãng phí.