Vitalik Buterin cho rằng việc chạy mô hình lớn cục bộ nên xoay quanh vài “tầng” dung lượng bộ nhớ và VRAM chuẩn hóa, trong đó 96GB là một mức trần khả thi hiện nay cho triển khai tại chỗ.
Đề xuất này được đưa ra trong một cuộc thảo luận về cách thiết kế hệ sinh thái LLM và GPU sao cho đồng bộ hơn giữa phần cứng và mô hình. Vitalik nêu các mốc dung lượng như 2GB, 8GB, 24GB, 96GB, 256GB và 1TB để dễ chuẩn hóa.
Ông dẫn ví dụ RTX 6000 với 96GB VRAM. Với MacBook cao cấp và một số laptop AMD có 128GB RAM hợp nhất, khoảng 32GB vẫn cần dành cho tác vụ khác, nên dung lượng khả dụng cho mô hình sẽ thấp hơn tổng bộ nhớ.
Theo cách tiếp cận này, việc thống nhất theo vài mức dung lượng có thể giúp quá trình triển khai và tương thích giữa phần cứng với mô hình trở nên gọn hơn. Hiện chưa có thêm chi tiết về việc đề xuất này sẽ được áp dụng ra sao trong thực tế.