Bí mật của 'siêu AI' tạo video Sora

15/3/2024 Gốc

Dù có thể tạo video chất lượng cao, mô hình tạo video Sora của OpenAI vẫn cần cải thiện trước khi phát hành rộng rãi.

Trang chủ của Sora. Ảnh: AFP.

Sora là mô hình chuyển văn bản thành video (text-to-video) mới nhất của OpenAI. Công nghệ này có thể tạo video tối đa một phút dựa trên mô tả được cung cấp.

Theo OpenAI, Sora sẽ hiểu từng yếu tố trong câu lệnh để tạo video phù hợp. Ví dụ, mô hình này có thể tạo khung cảnh người chạy bộ trên đường, không gian xung quanh thay đổi theo tự nhiên.

Dù chưa được phát hành công khai, những video được OpenAI công bố cho thấy khả năng tạo nội dung chất lượng cao, đơn giản của Sora. Trong cuộc phỏng vấn với WSJ, Giám đốc Công nghệ Mira Murati của OpenAI đã nói về những chi tiết đáng bàn luận trên mô hình này.

Dữ liệu của Sora đến từ đâu

Trước đây, các AI chỉ có thể tạo video độ phân giải thấp và chất lượng kém. Trong khi đó, Sora kết hợp nhiều kỹ thuật khác nhau để tạo nội dung chất lượng cao, đồng thời sử dụng hiệu quả tài nguyên tính toán.

Tác giả Joanna Stern của WSJ đã thử so sánh video tạo bởi Sora và Runway với câu lệnh: "2 người phụ nữ chuyên nghiệp, tóc nâu với độ tuổi khoảng 30, ngồi trả lời bài phỏng vấn tin tức trong một studio có ánh sáng tốt".

Video mô tả 2 người phỏng vấn tạo bởi 2 mô hình khác nhau. Ảnh: OpenAI, Runway.

Trong video của Sora, các chi tiết như khẩu hình miệng, chuyển động tóc và độ sắc nét của lớp áo khoác da được thể hiện khá tốt.

Theo Murati, đoạn video 720p như trên mất vài phút để tạo. Dù chưa có âm thanh, đại diện OpenAI cho biết có kế hoạch bổ sung tính năng này trong tương lai.

Ngược lại, video tạo bởi Runway gồm 2 người phụ nữ mờ ảo. Nếu để ý, phần miệng trong video di chuyển kém tự nhiên, trong khi bàn tay có hình dạng kỳ quái.

Về cơ bản, các mô hình AI được huấn luyện bằng cách phân tích rất nhiều video để nhận diện vật thể và hành động. Sau đó, khi người dùng nhập câu lệnh, chúng sẽ tạo ra khung cảnh rồi chèn chi tiết vào từng khung hình.

Theo giới phân tích và các công ty AI, việc Sora cho video chất lượng cao đến từ sức mạnh tính toán và lượng dữ liệu đào tạo lớn của OpenAI. Gần đây, chính công ty này đối mặt nhiều vụ kiện, cáo buộc lấy nội dung mà không xin phép để huấn luyện các mô hình như GPT.

Theo chia sẻ của Murati, OpenAI sử dụng nhiều nguồn dữ liệu khác nhau để đào tạo Sora. "Chúng tôi dùng dữ liệu được chia sẻ công khai, và kể cả dữ liệu được cấp phép", bà cho biết.

Phản hồi của Sora khi được yêu cầu tạo video "nàng tiên cá đánh giá một chiếc smartphone trên rạn san hô dưới nước với con cua làm trợ lý". Ảnh: OpenAI.

Đại diện OpenAI chỉ xác nhận dữ liệu bản quyền gồm nội dung trên Shutterstock, nhưng không nói rõ nguồn dữ liệu khác có bao gồm những website như Facebook, YouTube hay không.

Hiện tại, sức mạnh tính toán cần thiết cho Sora lớn hơn khá nhiều so với DALL-E, mô hình tạo ảnh của OpenAI. Tuy nhiên khi phát hành trong tương lai, công ty sẽ tối ưu mô hình để sử dụng ít tài nguyên hơn.

Những điểm chưa hoàn hảo

Nhiều người lo ngại về video tạo bởi AI ngày càng giống đời thực. Tuy nhiên theo Murati, chúng vẫn có một số chi tiết để người dùng nhận biết, ít nhất trong giai đoạn này.

"Thật sự rất khó để thể hiện chính xác chuyển động tay", CTO của OpenAI thừa nhận. Trong video phỏng vấn bên trên, có thời điểm bàn tay người phụ nữ dường như có 10 ngón.

Tiếp theo, tác giả yêu cầu mô hình tạo video chứa cảnh robot giật camera của người quay phim. Tuy nhiên, video thành phẩm lại là người cầm máy quay bị biến thành robot.

Không chỉ hiểu sai ý nghĩa, chiếc taxi màu vàng phía sau bỗng dưng biến thành sedan màu bạc. Theo giải thích của Murati, mô hình này "khá tốt về tính liên tục nhưng không hoàn hảo".

Dù vậy, AI hoàn toàn có thể tiến bộ hơn theo thời gian. Theo Murati, để phân biệt video do Sora tạo ra, người dùng có thể nhìn vào watermark dưới góc phải. Bên cạnh đó, dữ liệu metadata cũng sẽ chứa nguồn gốc của video.

Mô hình Sora hiểu sai ý khi tạo video người cầm máy quay phim biến thành robot. Ảnh: OpenAI.

Để đảm bảo an toàn, OpenAI cũng thành lập đội ngũ thử nghiệm an toàn cho Sora, với việc sử dụng các câu lệnh chuyên dụng để phát hiện lỗ hổng, video thù địch hoặc kết quả có hại.

"Đó là lý do chúng tôi chưa thực sự triển khai hệ thống này. Chúng tôi cần tìm ra những vấn đề trước khi tự tin phát hành rộng rãi", Murati cho biết.

Theo đại diện OpenAI, chính sách an toàn của Sora có thể giống DALL-E. Ví dụ, người dùng sẽ không thể tạo video chứa người nổi tiếng. Công cụ đã từ chối khi tác giả của WSJ yêu cầu "tạo đoạn tin tức trên TV về tổng thống Mỹ đương nhiệm".

Dù chưa phát hành rộng rãi, một số nhà sản xuất phim đã cân nhắc sử dụng Sora. Nhà làm phim Tyler Perry cho biết sẽ tạm dừng kế hoạch mở rộng studio trị giá 800 triệu USD sau khi xem video tạo bởi Sora.

Jeanette Moreno King, Chủ tịch Hiệp hội Hoạt hình tại Mỹ, cho rằng con người vẫn cần thiết cho những quyết định mang tính nghệ thuật, nhưng không lạc quan về tương lai của công việc này.

Một lần nữa, Murati nhấn mạnh kế hoạch triển khai Sora chậm rãi và cẩn thận. OpenAI cũng phát hành thử nghiệm công cụ cho các nhà làm phim để thu thập ý kiến.

AI tạo video của OpenAI đe dọa ngành làm phim Mô hình Sora vừa được OpenAI giới thiệu có khả năng tạo ra các video ngắn dưới một phút, với độ chân thực cao chỉ bằng vài dòng lệnh.

Phúc Thịnh

OpenAI

Nguồn Znews: https://znews.vn/phia-sau-sieu-ai-tao-video-dang-gay-sot-post1464862.html