OpenAI, công ty đứng sau công cụ generative AI ChatGPT, đã tiết lộ một công nghệ nhân bản giọng nói mới mà họ gọi là “Voice Engine”.
Mô hình âm thanh này có thể tái tạo giọng nói, ngữ điệu và các mẫu giọng nói khác biệt của con người dựa trên một mẫu âm thanh gốc tương đối nhỏ.
Công ty cho biết trong bài đăng trên blog vào thứ Sáu:
“Điều đáng chú ý là một mô hình nhỏ với một mẫu 15 giây duy nhất có thể tạo ra giọng nói giàu cảm xúc và chân thực”.
Để so sánh, nền tảng giọng nói AI ElevenLabs có công cụ sao chép giọng nói tức thì yêu cầu mẫu trong ít nhất một phút. Để có kết quả tốt nhất, cần có gần 10 phút nói liên tục để đạt được mức độ dịch vụ chuyên nghiệp.
Công ty đã đưa ra những ví dụ khác nhau về những gì công nghệ này có thể làm được. Trong một ví dụ, giọng nói của một bệnh nhân trẻ bị mất nhiều khả năng nói do khối u não mạch máu đã được sao chép bằng cách sử dụng bản ghi âm cũ hơn mà cô ấy thực hiện cho một dự án ở trường. Đây là cách cô ấy phát âm ngày hôm nay, theo OpenAI.
OpenAI đã làm việc với Lifespan, một tổ chức phi lợi nhuận liên kết với trường y tại Đại học Brown và là người tạo ra công cụ có tên Livox, một “ứng dụng giao tiếp thay thế” được xây dựng cho người khuyết tật. Nhóm đã có thể làm việc với bản ghi âm mà người phụ nữ đã thực hiện cho bài thuyết trình ở trường.
Voice Engine của Open AI sau đó có thể cung cấp khả năng chuyển văn bản thành giọng nói tức thì cho phép bệnh nhân nói một cách hiệu quả bằng chính giọng nói của mình.
OpenAI cũng giới thiệu cách HeyGen sử dụng công nghệ của mình để tạo ra các bản dịch giọng nói có âm thanh tự nhiên được tải lên bằng một ngôn ngữ cụ thể sang ngôn ngữ khác.
Công ty cho biết Voice Engine được phát triển lần đầu tiên vào cuối năm 2022 và hiện đang được sử dụng để cung cấp các giọng nói cài sẵn có trong API chuyển văn bản thành giọng nói của OpenAI, cũng như tính năng Voice và Read Aloud của ChatGPT. Với những tiến bộ mới nhất, công ty cho biết họ đang thận trọng trước khi phát hành rộng rãi hơn.
OpenAI viết:
“Chúng tôi hy vọng sẽ bắt đầu một cuộc đối thoại về việc triển khai có trách nhiệm các giọng nói tổng hợp và cách xã hội có thể thích ứng với những khả năng mới này”.
Tiếng nói của những người nổi tiếng, quan chức chính phủ và ngày càng nhiều công dân tư nhân đang bị mạo danh vì những mục đích bất chính, từ các chiến dịch chính trị, quảng cáo giả mạo và các hoạt động tội phạm trắng trợn.
Tổng thống Hoa Kỳ Joe Biden đã thúc đẩy nhiều biện pháp bảo vệ hơn chống lại việc sử dụng mục đích mạo danh giọng nói AI với mục đích xấu.
Trên thực tế, Meta đã tiết lộ vào mùa hè năm ngoái rằng công cụ giọng nói AI của họ đã bị trì hoãn đặc biệt vì “nguy cơ lạm dụng tiềm ẩn”.
OpenAI đã giải thích:
“Theo cách tiếp cận của chúng tôi đối với an toàn AI và các cam kết tự nguyện của chúng tôi, chúng tôi chọn xem trước nhưng không phát hành rộng rãi công nghệ này vào thời điểm này”.
Ngay cả trước khi phát hành rộng rãi, OpenAI đã đặt ra các hạn chế đối với Voice Engine – bao gồm danh sách những người nổi bật mà nó sẽ không mô phỏng.
OpenAI cho biết:
“Chúng tôi tin rằng bất kỳ hoạt động triển khai rộng rãi nào về công nghệ giọng nói tổng hợp đều phải đi kèm với trải nghiệm xác thực giọng nói để xác minh rằng người nói ban đầu đang cố tình thêm giọng nói của họ vào dịch vụ và danh sách giọng nói cấm đi để phát hiện và ngăn chặn việc tạo ra những giọng nói quá giống với những nhân vật nổi bật”.
Các đối tác thử nghiệm Voice Engine hôm nay đã đồng ý với các chính sách sử dụng của OpenAI, nghiêm cấm việc mạo danh cá nhân hoặc tổ chức khác mà không có sự đồng ý.
Ngoài ra, công ty yêu cầu sự đồng ý rõ ràng và đầy đủ thông tin từ người nói ban đầu và họ không cho phép các nhà phát triển xây dựng các cách để người dùng cá nhân sao chép giọng nói của chính họ.
Bài đăng trên blog cho biết:
“Dựa trên những cuộc trò chuyện này và kết quả của những thử nghiệm quy mô nhỏ này, chúng tôi sẽ đưa ra quyết định sáng suốt hơn về việc liệu có nên triển khai công nghệ này trên quy mô lớn hay không và cách thức triển khai công nghệ này trên quy mô lớn”.
Ngoài Voice Engine, Open AI đang hoạt động song song trên nhiều dự án. Giám đốc điều hành Sam Altman tiết lộ rằng công ty đang nỗ lực phát hành GPT-5 trong năm nay.
Công ty cũng giới thiệu công cụ tạo video Sora. Công ty tuyên bố rằng Sora sẽ là trình tạo video tiên tiến nhất trên thị trường, vượt qua các mẫu như Pika, Stable Video Diffusion và Runway ML.
Sora hiện chỉ khả dụng cho các “đội đỏ” được Open AI đăng ký để đảm bảo nó không thể bị lạm dụng.
Voice Engine chắc chắn có thể hoạt động tốt hơn các công cụ sao chép giọng nói khác, bao gồm các dịch vụ từ Meta, ElevenLabs, WellSaid Labs và các mô hình nguồn mở như RVC.
Open AI cũng đang thực hiện một dự án bí mật có tên Q* mà chỉ có tên của nó bị rò rỉ. Sam Altman từ chối cung cấp bất kỳ thông tin chi tiết nào nhưng cho biết nhóm nghiên cứu tập trung nhiều vào việc tìm kiếm các kỹ thuật và phương pháp tiếp cận giúp AI suy luận tốt hơn.
Tin Tức Bitcoin tổng hợp.