QVAC, bộ phận nghiên cứu AI của Tether Data, công bố sáng kiến QVAC Genesis và phát hành bộ dữ liệu tổng hợp Genesis I gồm 41 tỷ Token văn bản, nhằm hỗ trợ phát triển mô hình ngôn ngữ STEM chính xác hơn.
Bộ dữ liệu được kiểm định với các chuẩn giáo dục và khoa học, hướng tới nâng cao khả năng lập luận và giải quyết bài toán trong toán học, vật lý. Tether Data còn ra mắt ứng dụng QVAC Workbench dành cho người dùng và nhà phát triển AI.
- Genesis I là bộ dữ liệu tổng hợp có 41 tỷ Token, thiết kế cho nội dung giáo dục STEM.
- Bộ dữ liệu được kiểm định theo chuẩn giáo dục và khoa học, tập trung vào năng lực lập luận.
- QVAC Workbench là ứng dụng đầu tiên của Tether Data, hỗ trợ mô hình lớn và bảo mật dữ liệu người dùng.
Genesis I — tổng quan bộ dữ liệu
Genesis I là bộ dữ liệu tổng hợp với 41 tỷ Token văn bản, được phát triển để huấn luyện mô hình ngôn ngữ chuyên sâu về STEM.
Bộ dữ liệu hướng tới việc cân bằng giữa từ vựng chuyên môn và logic liên quan, nhằm giúp mô hình học cả ngữ nghĩa lẫn phương pháp giải quyết vấn đề trong các môn khoa học kỹ thuật.
Kiểm định và hiệu năng trên chuẩn giáo dục
Genesis I được đánh giá so với các chuẩn giáo dục và khoa học để xác minh khả năng suy luận và giải bài tập trong toán học, vật lý.
Việc kiểm định cho thấy ưu thế về năng lực lập luận và giải quyết bài toán so với một số tập dữ liệu chung, giúp mô hình huấn luyện từ Genesis I phù hợp hơn cho ứng dụng giảng dạy và nghiên cứu STEM.
QVAC Workbench — ứng dụng người dùng
QVAC Workbench là ứng dụng tiêu dùng đầu tiên của Tether Data, hỗ trợ nhiều mô hình ngôn ngữ quy mô lớn và các công cụ AI phụ trợ.
Ứng dụng chạy trên điện thoại (hiện chỉ có Android, iOS sẽ có sau) và nền tảng desktop, cung cấp hỗ trợ bản địa toàn diện và tính năng kết nối để tận dụng tài nguyên workstation.
Quyền riêng tư và cơ chế “delegated inference”
Tether Data khẳng định dữ liệu chat và tương tác của người dùng được giữ 100% riêng tư, với cơ chế “delegated inference” kết nối phiên bản di động và desktop để sử dụng tài nguyên hiệu quả.
Người dùng có thể chạy suy luận dựa trên tài nguyên cục bộ của workstation mà vẫn duy trì quyền kiểm soát dữ liệu, phù hợp cho những môi trường đòi hỏi bảo mật và hiệu năng cao.
Ứng dụng thực tiễn của mô hình huấn luyện từ Genesis I
Mô hình huấn luyện trên Genesis I phù hợp cho các ứng dụng giáo dục, công cụ trợ giảng và hỗ trợ nghiên cứu STEM.
Sự tập trung vào nội dung giáo dục giúp giảm thiểu sai sót về logic và cải thiện chất lượng lời giải, đặc biệt trong các bài toán yêu cầu bước luận rõ ràng và công thức chính xác.
Hạn chế và lưu ý khi sử dụng
Dù là bộ dữ liệu tổng hợp có kiểm định, người phát triển cần đánh giá bổ sung theo ngữ cảnh thực tế và chuẩn mực giáo dục địa phương trước khi triển khai.
Kết hợp dữ liệu thực tế và kiểm định liên tục vẫn cần thiết để đảm bảo mô hình không phát sinh lỗi hệ thống hoặc sai lệch khi áp dụng vào bài tập chuyên môn sâu.
Câu hỏi thường gặp
Bộ dữ liệu Genesis I có miễn phí không?
Thông tin chi tiết về giấy phép và quyền truy cập chưa được nêu rõ; cần tham khảo kênh chính thức của Tether Data để biết điều kiện sử dụng.
Genesis I phù hợp cho mô hình nào?
Bộ dữ liệu phù hợp cho mô hình ngôn ngữ lớn chuyên về nội dung STEM hoặc các mô hình cần cải thiện khả năng lập luận và giải bài tập.
QVAC Workbench có hỗ trợ iOS ngay lập tức không?
Hiện ứng dụng chỉ có trên Android; phiên bản iOS được thông báo sẽ ra mắt trong tương lai nhưng chưa có lịch cụ thể.
Dữ liệu người dùng trên QVAC Workbench có an toàn không?
Tether Data tuyên bố dữ liệu chat và tương tác giữ 100% riêng tư, đồng thời cung cấp cơ chế delegated inference để tận dụng tài nguyên cục bộ.
