Anthropic phát hành phiên bản mới tài liệu Claude Constitution theo giấy phép Creative Commons CC0 1.0, đóng vai trò tối thượng trong huấn luyện mô hình Claude để tạo dữ liệu huấn luyện tổng hợp và xếp hạng phản hồi.
Tài liệu được thiết kế không chỉ nêu nguyên tắc mà còn giải thích vì sao, nhằm giúp mô hình khái quát tốt hơn khi gặp kịch bản mới, đồng thời ưu tiên an toàn, đạo đức, tuân thủ hướng dẫn và hỗ trợ người dùng.
- Claude Constitution mới được mở theo CC0 1.0 và dùng làm chuẩn huấn luyện.
- Ưu tiên: an toàn > đạo đức > tuân thủ hướng dẫn > trợ giúp chân thực.
- Thêm nội dung về đức hạnh, an toàn tâm lý, tự nhận thức; nhấn mạnh minh bạch và lặp liên tục.
Claude Constitution mới: dùng để huấn luyện và tạo dữ liệu
Anthropic công bố phiên bản mới Claude Constitution theo Creative Commons CC0 1.0, dùng làm tiêu chuẩn tối thượng cho huấn luyện, tạo dữ liệu tổng hợp và xếp hạng phản hồi.
Tài liệu được mô tả là nền tảng cho quy trình huấn luyện: vừa tạo synthetic training data, vừa làm tiêu chí để ranking feedback. Việc phát hành theo CC0 1.0 cho phép sử dụng rộng rãi mà không bị ràng buộc bản quyền, qua đó mở đường cho cộng đồng tham khảo hoặc tái sử dụng cấu trúc nguyên tắc trong các hệ thống AI khác.
Điểm khác biệt chính là tài liệu không dừng ở danh sách nguyên tắc. Nó bổ sung phần giải thích vì sao các nguyên tắc tồn tại, nhằm tăng khả năng generalization khi mô hình gặp tình huống mới hoặc dữ liệu ngoài phân phối. Cách viết này hướng tới giảm phản hồi máy móc, tăng tính nhất quán trong quyết định an toàn và đạo đức.
Thứ tự ưu tiên và các ràng buộc cứng
Claude Constitution mới sắp xếp ưu tiên theo: an toàn diện rộng > đạo đức diện rộng > tuân thủ hướng dẫn > hỗ trợ chân thực, kèm các hard constraints như không hỗ trợ đáng kể cho phát triển vũ khí sinh học.
Cấu trúc ưu tiên giúp mô hình xử lý xung đột mục tiêu: khi yêu cầu người dùng va chạm với an toàn hoặc đạo đức, tầng ưu tiên cao hơn sẽ chi phối. Việc nêu hard constraints đặt ranh giới hành vi rõ ràng, tập trung vào các rủi ro nghiêm trọng, trong đó có nội dung liên quan hỗ trợ phát triển vũ khí sinh học.
Tài liệu cũng bổ sung các chương về virtues, psychological safety và model self-awareness, đồng thời nhấn mạnh transparency và continuous iteration. Điều này định hướng mô hình không chỉ tránh tác hại, mà còn chú trọng cách tương tác an toàn về mặt tâm lý và duy trì khả năng tự kiểm soát, cập nhật quy tắc theo vòng lặp cải tiến.





