Apple đang tiến xa hơn trong lĩnh vực trí tuệ nhân tạo và cụ thể là trí tuệ nhân tạo mã nguồn mở. Hãng công nghệ có trụ sở tại Cupertino đã hợp tác với Đại học Santa Barbara để phát triển mô hình trí tuệ nhân tạo có thể chỉnh sửa ảnh dựa trên ngôn ngữ tự nhiên, tương tự như cách con người tương tác với ChatGPT. Apple gọi nó là Multimodal Large-Language Model-Guided Image Editing (MGIE).
MGIE phiên dịch các hướng dẫn văn bản được người dùng cung cấp, xử lý và tinh chỉnh chúng để tạo ra lệnh chỉnh sửa ảnh chính xác. Việc tích hợp mô hình phân tán nâng cao quá trình này, cho phép MGIE áp dụng chỉnh sửa dựa trên các đặc điểm của ảnh gốc.
Các mô hình ngôn ngữ lớn đa hình thức (MLLMs), có thể xử lý cả văn bản và hình ảnh, là nền tảng của phương pháp MGIE. Khác với các trí tuệ nhân tạo truyền thống chỉ tập trung vào văn bản hoặc hình ảnh, MLLMs có thể xử lý các hướng dẫn phức tạp và hoạt động trong một loạt tình huống rộng hơn. Ví dụ, một mô hình có thể hiểu hướng dẫn văn bản, phân tích các yếu tố của một bức ảnh cụ thể, sau đó loại bỏ một phần trong ảnh và tạo ra một bức ảnh mới không có yếu tố đó.
Để thực hiện các hành động này, một hệ thống trí tuệ nhân tạo phải có các khả năng khác nhau, bao gồm tạo văn bản, tạo hình ảnh, phân đoạn và phân tích CLIP, tất cả trong cùng một quá trình.
Việc giới thiệu MGIE đưa Apple gần hơn đến việc đạt được khả năng tương tự như OpenAI’s ChatGPT Plus, cho phép người dùng tương tác trò chuyện với các mô hình trí tuệ nhân tạo để tạo ra các bức ảnh tùy chỉnh dựa trên đầu vào văn bản. Với MGIE, người dùng có thể cung cấp hướng dẫn chi tiết bằng ngôn ngữ tự nhiên – “loại bỏ chiếc bóng đèn giao thông khỏi phần trước cảnh” – được dịch sang các lệnh chỉnh sửa ảnh và được thực hiện.
Nói cách khác, người dùng có thể bắt đầu với một bức ảnh của một người tóc vàng và biến họ thành người tóc đỏ chỉ bằng cách nói “làm cho người này hồng hào”. Dưới nền tảng công nghệ, mô hình sẽ hiểu hướng dẫn, phân đoạn tóc của người, tạo một lệnh như “tóc đỏ, chi tiết cao, chân dung thực tế, tông màu đỏ đất” và sau đó thực hiện các thay đổi thông qua các bước hoàn thiện.
Phương pháp của Apple phù hợp với các công cụ hiện có như Stable Diffusion, có thể được bổ sung thêm giao diện thuần túy cho chỉnh sửa ảnh dựa trên văn bản. Bằng cách tận dụng các công cụ bên thứ ba như Pix2Pix, người dùng có thể tương tác với giao diện Stable Diffusion sử dụng các lệnh tự nhiên và chứng kiến hiệu ứng thời gian thực trên các bức ảnh đã chỉnh sửa.
Tuy nhiên, phương pháp của Apple cho thấy sự chính xác cao hơn bất kỳ phương pháp tương tự nào khác.
Ngoài trí tuệ nhân tạo tạo sinh, MGIE của Apple còn có thể thực hiện các tác vụ chỉnh sửa ảnh thông thường khác như cân bằng màu sắc, thay đổi kích thước, xoay, thay đổi kiểu dáng và vẽ phác thảo.
Tại sao Apple lại biến nó thành nguồn mở?
Apple đã chọn chiến lược tấn công vào lĩnh vực mã nguồn mở một cách rõ ràng – với phạm vi vượt xa yêu cầu về cấp phép.
Để xây dựng MGIE, Apple sử dụng các mô hình mã nguồn mở như Llava và Vicuna. Do yêu cầu về cấp phép của những mô hình này giới hạn việc sử dụng thương mại bởi các tập đoàn lớn, có lẽ Apple đã bị ép buộc phải chia sẻ các cải tiến của mình công khai trên GitHub.
Nhưng điều này cũng cho phép Apple tận dụng một nguồn nhân lực toàn cầu nhằm nâng cao sức mạnh và tính linh hoạt của mình. Sự hợp tác này giúp thúc đẩy tiến bộ nhanh hơn rất nhiều so với việc Apple hoạt động hoàn toàn độc lập và bắt đầu từ đầu. Hơn nữa, tính cởi mở này truyền cảm hứng cho một loạt các ý tưởng khác nhau và thu hút các nhân tài kỹ thuật đa dạng, giúp MGIE phát triển nhanh hơn.
Việc Apple tham gia vào cộng đồng mã nguồn mở với các dự án như MGIE cũng giúp thương hiệu này được nhận đánh giá cao từ các nhà phát triển và người yêu công nghệ. Khía cạnh này không còn là bí mật, Meta và Microsoft đều đầu tư rất nhiều vào trí tuệ nhân tạo mã nguồn mở.
Có thể việc phát hành MGIE như một phần mềm mã nguồn mở sẽ giúp Apple dẫn đầu trong việc xác định tiêu chuẩn ngành về trí tuệ nhân tạo và chỉnh sửa hình ảnh dựa trên trí tuệ nhân tạo đặc biệt. Với MGIE, Apple có thể đã cung cấp một nền tảng vững chắc cho các nghệ sĩ và nhà phát triển trí tuệ nhân tạo để xây dựng điều lớn lao tiếp theo, mang lại độ chính xác và hiệu quả hơn so với những gì có sẵn ở nơi khác.
MGIE sẽ chắc chắn làm cho các sản phẩm của Apple tốt hơn: không quá khó để tổng hợp một lệnh thoại được gửi cho Siri và sử dụng văn bản đó để chỉnh sửa hình ảnh trên điện thoại thông minh, máy tính hoặc kính thực tế ảo của người dùng.
Các nhà phát triển trí tuệ nhân tạo có thể sử dụng MGIE ngay bây giờ. Chỉ cần truy cập kho lưu trữ GitHub của dự án.
Tin Tức Bitcoin tổng hợp