'Big Tech' tranh mua dữ liệu đào tạo AI

07/4/2024 Gốc

Để đào tạo các mô hình trí tuệ nhân tạo (AI) tạo sinh, các 'ông lớn' công nghệ (Big Tech) đang chạy đua đàm phán mua dữ liệu, bao gồm hình ảnh và video, từ các công ty truyền thông và nền tảng lưu trữ đa phương tiện.

Hồi tháng 2, Reddit đạt được thỏa thuận trị giá 60 triệu đô la với Google để cung cấp nội dung của mạng xã hội này cho mục đích đào tạo các mô hình AI của Google. Ảnh: Indian Express

Quy mô thị trường dữ liệu AI khổng lồ nhưng chưa rõ ràng

Ở thời kỳ đỉnh cao vào đầu thập niên 2000, Photobucket, có trụ sở ở bang Colorado là nền tảng lưu trữ ảnh hàng đầu thế giới, với 70 triệu người dùng và chiếm gần 50% thị phần hình ảnh trực tuyến của Mỹ. Hiện nay, chỉ còn 2 triệu người vẫn sử dụng Photobucket. Nhưng cuộc cách mạng AI có thể thổi luồng sinh khí mới cho nền tảng lưu trữ hình ảnh đang sa sút này.

Ted Leonard, CEO của Photobucket tiết lộ với Reuters rằng, ông đang đàm phán với nhiều tập đoàn công nghệ để cấp phép sử dụng 13 tỉ hình ảnh và video của Photobucket. Kho dữ liệu hình ảnh và video khổng lồ này sẽ được sử dụng cho mục đích đào tạo các mô hình AI có khả năng tạo ra nội dung mới để phản hồi mệnh lệnh của người dùng.

Leonard đã thảo luận về các mức giá từ 5 cent đến 1 đô la Mỹ cho mỗi bức ảnh và hơn 1 đô la cho mỗi video, tùy theo người mua và loại hình ảnh. Ông cho biết thêm, có một khách hàng muốn mua hơn một tỉ video, nhiều hơn lượng video trên nền tảng Photobucket.

Các cuộc đàm phán trên cho thấy Photobucket có thể nắm giữ nội dung trị giá hàng tỉ đô la. Những người khổng lồ công nghệ như Google, Meta và OpenAI ban đầu sử dụng miễn phí hàng loạt dữ liệu lấy từ Internet để đào tạo các mô hình AI như ChatGPT. Họ cho rằng hành động đó hợp pháp dù đang đối mặt với các vụ kiện từ hàng loạt chủ sở hữu bản quyền dữ liệu. Đồng thời, các “ông lớn” công nghệ này cũng đang âm thầm trả tiền để mua nội dung có tính phí.

“Hiện đang có cuộc chạy đua tìm kiếm những bên nắm giữ bản quyền có bộ sưu tập nội dung riêng tư không có sẵn miễn phí trên Internet”, Edward Klaris, đối tác quản lý hãng luật Klaris Law nói.

Klaris Law đang tư vấn cho các chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu đô la trong các hợp đồng cấp phép sử dụng kho lưu trữ ảnh, phim và sách để đào tạo AI. OpenAI, Google, Meta, Microsoft, Apple và Amazon từ chối bình luận về các giao dịch như vậy.

Nhiều công ty nghiên cứu thị trường lớn thậm chí còn chưa ước tính quy mô của thị trường dữ liệu AI vốn không rõ ràng vì các công ty thường không tiết lộ các giao dịch liên quan. Gần đây, Business Research Insights, ước tính thị trường dữ liệu AI hiện ở mức khoảng 2,5 tỉ đô la và có thể tăng lên gần 30 tỉ đô la trong vòng 10 năm.

“Big Tech” khuấy động thị trường

Cuộc chạy đua giành dữ liệu diễn ra khi các nhà sản xuất mô hình nền tảng AI tạo sinh đối mặt với áp lực ngày càng tăng trong việc giải quyết nhu cầu về lượng nội dung khổng lồ mà họ đưa vào hệ thống. Quá trình này, được gọi là “đào tạo” mô hình AI, đòi hỏi năng lực điện toán chuyên sâu và thường mất nhiều tháng để hoàn thành .

Các tập đoàn công nghệ lập luận rằng, hoạt động đào tạo mô hình AI sẽ rất tốn kém nếu họ không thể sử dụng lượng dữ liệu khổng lồ được thu thập miễn phí từ các trang web, chẳng hạn như dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl.

Tuy nhiên, cách tiếp cận của họ đã khơi mào một làn sóng kiện tụng vi phạm bản quyền, đồng thời thúc đẩy các công ty truyền thông chèn mã vào trang web của họ để chặn việc thu thập thông tin.

Vì vậy, các nhà sản xuất mô hình AI bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu thông qua các thỏa thuận với các chủ sở hữu nội dung và thông qua ngành công nghiệp môi giới dữ liệu.

Trong những tháng sau khi ChatGPT của OpenAI ra mắt vào cuối năm 2022, các công ty bao gồm Meta, Google, Amazon và Apple đạt được thỏa thuận với Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và tệp nhạc của nhà cung cấp này cho mục đích đào tạo AI.

Jarrod Yahes, Giám đốc tài chính của Shutterstock cho biết, các thỏa thuận với các “Big Tech” ban đầu dao động từ 25-50 triệu đô la mỗi công ty. Yahes nói thêm, sau đó những công ty công nghệ nhỏ hơn cũng tìm kiếm những thỏa thuận tương tự.

Đối thủ cạnh tranh của Shutterstock là Freepik cho biết, đã đạt được thỏa thuận với hai công ty công nghệ để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh với mức giá từ 2-4 cent cho mỗi hình ảnh. Joaquin Cuenca Abela, CEO của Shutterstock tiết lộ, có thêm 5 giao dịch tương tự đang được đàm phán.

OpenAI, khách hàng đầu tiên của Shutterstock, cũng đã ký thỏa thuận sử dụng dữ liệu với ít nhất 4 tổ chức truyền thông tin tức, bao gồm The Associated Press (AP) Thomson Reuters, chủ sở hữu của Reuters News, cũng đạt được thỏa thuận cấp phép nội dung tin tức để giúp đào tạo các mô hình ngôn ngữ lớn, nhưng không tiết lộ chi tiết.

Ted Leonard, CEO của Photobucket, đang đàm phán với nhiều tập đoàn công nghệ để cấp phép sử dụng 13 tỉ hình ảnh và video lưu trữ trên nền tảng này. Ảnh: Reuters

Khai sinh ngành công nghiệp mới

Trong khi đó, một ngành công nghiệp mới đang xuất hiện khi các công ty chuyên về dữ liệu AI tìm kiếm quyền sử dụng những nội dung trong thế giới thực như podcasts (các tập tin âm thanh mà người dùng có thể tải về nghe), video ngắn và nội dung tương tác với trợ lý kỹ thuật số.

Đồng thời, các công ty này cũng xây dựng đội ngũ nhân viên hợp đồng ngắn hạn để tạo ra các hình ảnh mẫu và giọng nói theo yêu cầu. Mô hình kinh doanh của họ được ví như “Uber dành cho dữ liệu”

Chẳng hạn, Defined.ai, có trụ ở tại thành phố Seattle (Mỹ), đã cấp phép sử dụng dữ liệu cho một loạt công ty bao gồm Google, Meta, Apple, Amazon và Microsoft.

Defined.ai đưa ra nhiều mức giá khác tùy theo người mua và loại nội dung. Nhưng Daniela Braga, CEO của Defined.ai cho biết, các công ty thường sẵn sàng trả từ 1-2 đô la cho mỗi hình ảnh, 2-4 đô la cho mỗi video ngắn và 100-300 đô la mỗi giờ video. Bà cho biết thêm, giá thị trường cho văn bản là khoảng 0,001 đô la /từ.

Bà lưu ý, những hình ảnh khỏa thân, đòi hỏi quy trình xử lý nhạy cảm nhất, có giá từ 5-7 đô la/hình.

Theo Braga, Defined.ai chia sẻ những khoản thu nhập đó với các nhà cung cấp nội dung. Bà khẳng định dữ liệu của Defined.ai có nguồn gốc hợp pháp vì đã nhận được sự đồng ý từ những người sở hữu chúng và loại bỏ thông tin nhận dạng cá nhân.

Một trong những nhà cung cấp của Defined.ai là một doanh nhân ở Brazil. Người này cho biết, ông trả chủ sở hữu những hình ảnh, podcast và dữ liệu y tế mà ông cung cấp cho Defined.ai khoảng 20-30% tổng giá trị giao dịch.

Theo vị doanh nhân, những hình ảnh đắt giá nhất trong danh mục đầu tư của ông là những hình ảnh được sử dụng để đào tạo các hệ thống AI có chức năng ngăn chặn nội dung bạo lực mà các công ty công nghệ cần

Để đáp ứng yêu cầu này, ông thu thập các hình ảnh về hiện trường vụ án, xung đột bạo lực và các cuộc phẫu thuật. Các dữ liệu này được khai thác chủ yếu từ cảnh sát, phóng viên ảnh tự do và sinh viên y khoa, thường ở những nơi như Nam Mỹ và châu Phi.

Lo ngại vi phạm quyền riêng tư

Theo nhiều người trong ngành, việc khôi phục kho lưu trữ hình ảnh của các nền tảng như Photobucket làm nguyên liệu cho các mô hình AI mới nhất dẫn đến những vấn đề khác, đặc biệt là về quyền riêng tư của người dùng.

Trong nhiều trường hợp, thay vì sáng tạo hình ảnh mới, các hệ thống AI cung cấp bản sao chính xác của dữ liệu đào tạo chẳng hạn như hình ảnh có hình mờ bản quyền của Getty Images, trích đoạn văn nguyên văn của các bài báo từ New York Times hay hình ảnh thật của các cá nhân ngoài đời.

Điều đó có nghĩa là những bức ảnh riêng tư hoặc những suy nghĩ riêng tư của một người được đưa lên Internet cách đây nhiều thập niên có thể xuất hiện trong các kết quả đầu ra của mô hình AI mà không cần nhận được sự đồng ý rõ ràng.

Ted Leonard, CEO của Photobucket, khẳng định, ông có cơ sở pháp lý vững chắc để sử dụng hình ảnh lưu trữ trên nền tảng này. Ông trích dẫn bản cập nhật các điều khoản sử dụng dịch vụ của công ty hồi tháng 10, trong đó, yêu cầu người dùng cấp cho công ty “quyền không hạn chế” để bán bất kỳ nội dung trên Photobucket cho mục đích đào tạo hệ thống AI.

Ông xem coi dữ liệu được người dùng cấp phép sử dụng là một giải pháp thay thế cho việc bán quảng cáo. “Chúng tôi cần thanh toán các hóa đơn và dữ liệu được cấp phép có thể giúp chúng tôi tiếp tục hỗ trợ các tài khoản miễn phí của người dùng”, ông nói.

Braga của Defined.ai cho biết, bà tránh mua nội dung từ các công ty như Photobucket và ưu tiên mua nguồn ảnh được tạo ra bởi những người có ảnh hưởng trên mạng xã hội.

Photobucket không phải là nền tảng cấp phép sử dụng hình ảnh duy nhất. Tháng trước, Automattic, công ty mẹ của mạng xã hội Tumblr cho biết, đang chia sẻ nội dung với “các công ty AI được chọn lọc”.

Hồi tháng 2, Reuters đưa tin Reddit đạt được thỏa thuận trị giá 60 triệu đô la với Google để cung cấp nội dung của mạng xã hội này cho mục đích đào tạo các mô hình AI của Google.

Nhưng sau đó, Reddit cho biết, hoạt động kinh doanh cấp phép dữ liệu của công ty đang bị Ủy ban Thương mại liên bang Mỹ (FTC) điều tra. Công ty cũng thừa nhận rằng, hoạt động này có thể vi phạm các quy định bảo vệ quyền riêng tư và sở hữu trí tuệ.

Cũng từ tháng 2, FTC cảnh báo các doanh nghiệp không được thay đổi các điều khoản dịch vụ theo hướng “hồi tố” (có hiệu lực cho cả thời điểm quá khứ) nhằm mục đích cấp phép dữ liệu đào tạo AI.

Theo Reuters

Lê Linh

Nguồn Saigon Times: https://thesaigontimes.vn/big-tech-tranh-mua-du-lieu-dao-tao-ai/