CEO Coinbase Brian Armstrong cho biết công ty đã cắt gần một nửa chi tiêu AI dù mức sử dụng token tăng mạnh. Coinbase đạt được kết quả này nhờ đổi mặc định, định tuyến truy vấn và tối ưu bộ nhớ đệm, thay vì siết hạn mức hay cảnh báo sử dụng.
Armstrong nói Coinbase đang dùng cổng LLM để đặt các mô hình open-weight như GLM 5.2 của Zhipu và Kimi 2.7 của Moonshot AI làm lựa chọn mặc định, đồng thời khuyến khích kỹ sư chọn mô hình phù hợp cho từng tác vụ. 91% nhân viên chưa từng chạm ngưỡng sử dụng, nên công ty chuyển sang mặc định rẻ hơn thay vì hạ hạn mức.
Ở lớp định tuyến, Coinbase tiền xử lý prompt và phân công tác vụ sang mô hình phù hợp dựa trên tỷ lệ trúng cache và giá mô hình. Công ty cho rằng AI có thể tự động hóa dần khâu chọn mô hình này trong tương lai.
Về bộ nhớ đệm, toàn bộ yêu cầu của Coinbase đều được thiết kế để nhận diện cache, còn tỷ lệ trúng cache của LibreChat đã tăng từ 5% lên 60%. Armstrong nói mục tiêu không phải là kìm hãm mức dùng, mà là xây hạ tầng để tăng trưởng theo cấp số nhân có thể duy trì.
Ông cũng nhấn mạnh việc giữ ngữ cảnh gọn, giảm token lãng phí và tăng khả năng theo dõi mức sử dụng. Theo cách ông mô tả, chi phí AI càng cao thì kỳ vọng về tác động đầu ra càng lớn.