'Mô hình nền tảng' qua lăng kính pháp luật Việt Nam về quyền tác giả

04/10/2023 Gốc

Mô hình nền tảng (foundation models – MHNT) là một công nghệ mới, đang phát triển mạnh mẽ, được ứng dụng trong nhiều lĩnh vực, bao gồm cả kinh doanh. Tuy nhiên, MHNT cũng tiềm ẩn một số rủi ro, trong đó có nguy cơ xâm phạm quyền tác giả.

Mới đây, Tremblay và Awad đã khởi xướng vụ kiện chống lại OpenAI, cáo buộc công ty này đã sử dụng văn bản trong sách của họ mà không được phép, nhằm mục đích huấn luyện ChatGPT. Ngoài ra, nguyên đơn còn cho rằng ChatGPT đưa ra các nội dung trả lời là hoạt động tạo ra tác phẩm phái sinh, mà không được sự đồng ý từ chủ thể quyền, một dạng hành vi xâm phạm quyền tác giả. Từ đó, nguyên đơn đề nghị tòa án buộc bị đơn bồi thường thiệt hại.

ChatGPT là ứng dụng được phát triển dựa trên một công nghệ mới, gọi là MHNT. Công nghệ này đang nhận được nhiều sự quan tâm trên thế giới và tại Việt Nam. Vụ kiện nêu trên đặt ra câu hỏi về tính hợp pháp của việc sử dụng MHNT trong trường hợp này. Nếu tòa án cho rằng OpenAI xâm phạm quyền tác giả, phán quyết đó sẽ có tác động lớn đến việc phát triển và ứng dụng MHNT trong tương lai. Một trong những vấn đề cơ bản mà chúng ta nên biết, đó là hoạt động của MHNT có xâm phạm quyền tác giả không, có tiềm ẩn rủi ro gì khi sử dụng hay không?

Dữ liệu là “trái tim” của mô hình nền tảng

MHNT là mạng nơron trí tuệ nhân tạo (AI) có hàng ngàn tỉ tham số, được huấn luyện tự giám sát trên tập dữ liệu khổng lồ không gắn nhãn. MHNT có thể ví như mô hình chung, có dữ liệu được huấn luyện và thuật toán chung, theo đó người dùng có thể tương tác, tinh chỉnh để ứng dụng, giải quyết các tác vụ mới, bài toán cụ thể của mình mà không cần huấn luyện lại mô hình, nhờ đó giúp tiết kiệm thời gian và chi phí hơn. MHNT đóng vai trò là nền tảng chung để phát triển nhiều ứng dụng dần trở nên phổ biến với chúng ta như ChatGPT, Bing Chat, Midjourney, CoPilot…

Để một MHNT có thể hiểu và tạo ra văn bản giống con người, nó cần được huấn luyện trên một lượng lớn dữ liệu. Dữ liệu này có thể bao gồm sách, bài viết, mã nguồn… Ví dụ, để huấn luyện GPT-3, OpenAI đã cho nó “đọc” rất nhiều sách từ tập dữ liệu Books2 chứa hơn 100.000 quyển. Sách được chia thành từng từ và cụm từ nhỏ, gọi là token. GPT-3 học cách ghép các token lại với nhau thành câu, và nó cũng học cách đoán từ tiếp theo sẽ là gì dựa trên những từ đã xuất hiện trước đó. Dữ liệu càng lớn và đa dạng, MHNT càng có thể hiểu và tạo ra văn bản giống con người.

Khả năng hoạt động của mô hình nền tảng xâm phạm quyền tác giả?

Dữ liệu chính là “trái tim” của MHNT nên để hoạt động, các MHNT cần một khối lượng lớn dữ liệu đa dạng đầu vào. Tuy nhiên, một lo ngại phát sinh: liệu mọi dữ liệu được sử dụng trong huấn luyện có hợp pháp hay không? Nói cách khác, quá trình huấn luyện, hoạt động của MHNT có xâm phạm quyền tác giả hay không?

Để xem xét MHNT có xâm phạm quyền tác giả hay không, cần xác định hai vấn đề cơ bản. Vấn đề thứ nhất, có tác phẩm nào được bảo hộ quyền tác giả hay không? Vấn đề thứ hai, có hành vi sao chép hoặc tạo tác phẩm phái sinh mà chưa được phép của chủ thể quyền không?

Về vấn đề thứ nhất, quyền tác giả “tự động” phát sinh khi tác phẩm đáp ứng ba điều kiện sau:

(i) Do con người sáng tạo;

(ii) Được thể hiện dưới một hình thức vật chất nhất định (như được viết hay vẽ trên giấy, lưu trữ dưới hình thức điện tử, trên môi trường mạng hay kỹ thuật số); và

(iii) Có tính nguyên gốc, tức tác giả sáng tạo tác phẩm mà không sao chép từ tác phẩm của người khác.

Các yếu tố khác như nội dung, chất lượng, hình thức, phương tiện, ngôn ngữ, được công bố hay chưa, đã đăng ký hay chưa sẽ không ảnh hưởng đến việc phát sinh quyền tác giả, miễn là tác phẩm không trái với đạo đức xã hội, trật tự công cộng, có hại cho quốc phòng, an ninh, đồng thời không thuộc loại hình bị loại trừ khỏi đối tượng được bảo hộ.

Về vấn đề thứ hai, hành vi sao chép tác phẩm hoặc tạo tác phẩm phái sinh mà chưa được phép của chủ thể quyền là hành vi xâm phạm quyền tác giả.

Như vậy, để xác định liệu MHNT có xâm phạm quyền tác giả hay không, cần xem xét liệu dữ liệu được sử dụng trong huấn luyện MHNT có phải là tác phẩm được bảo hộ quyền tác giả hay không, và liệu quá trình huấn luyện, hoạt động của MHNT có dẫn đến hành vi sao chép tác phẩm hoặc tạo tác phẩm phái sinh mà chưa được phép của chủ thể quyền hay không.

Quyền sao chép là một trong những quyền cơ bản của chủ sở hữu quyền tác giả. Pháp luật sở hữu trí tuệ (SHTT) định nghĩa “sao chép” là việc tạo ra bản sao của toàn bộ hoặc một phần tác phẩm hoặc bản ghi âm, ghi hình bằng bất kỳ phương tiện hay hình thức nào. Theo đó, xâm phạm quyền sao chép tác phẩm được giới hạn ở hai hành vi là (1) nhân bản, tạo bản sao tác phẩm mà không được sự đồng ý của chủ sở hữu; hoặc (2) sao chép phần tác phẩm, trích đoạn, lắp ghép mà không được phép của chủ sở hữu, trừ một số ngoại lệ theo quy định.

Về nguyên tắc, để một bản sao hoặc tác phẩm bất kỳ là yếu tố xâm phạm quyền tác giả, cần chứng minh hai vấn đề sau:

(i) Bản sao đó có phải là bản sao chép một phần hoặc toàn bộ tác phẩm đang được bảo hộ của người khác không? hoặc

(ii) Tác phẩm (phần tác phẩm) có là một phần hoặc toàn bộ tác phẩm đang được bảo hộ của người khác, hoặc có nhân vật, hình tượng, cách thể hiện tính cách nhân vật, hình tượng, tình tiết của tác phẩm đang được bảo hộ của người khác hay không?

Từ các quy định trên, có thể thấy khó tồn tại hành vi “sao chép trái phép tác phẩm” trong hoạt động của MHNT, vì:

Thứ nhất, các văn bản và hình ảnh được tạo ra bởi MHNT thường khác với các tác phẩm được bảo hộ quyền tác giả. Lý do là MHNT không tập trung vào việc sao chép cách thể hiện ý tưởng của tác phẩm, mà tập trung vào việc học hỏi các dữ liệu số hóa (token). Các token này không phải là cách thể hiện ý tưởng sáng tạo, và pháp luật SHTT chỉ bảo vệ cách thể hiện nguyên gốc của một tác phẩm.

Thứ hai, nếu người dùng cố gắng “ra lệnh” MHNT sao chép tác phẩm đang được bảo hộ, MHNT sẽ không thể “sao chép” (theo nghĩa của một hành vi xâm phạm tại pháp luật SHTT) mà chỉ tạo ra thứ gì đó tương tự. Ngoài ra, việc so sánh hai tác phẩm cạnh nhau cũng là không dễ dàng bởi vì MHNT không tạo ra bất kỳ tác phẩm cố định nào, thay vào đó, mỗi khi “nhận lệnh”, mô hình lại tạo ra một kết quả, một phần nội dung nhỏ hay “tiểu” tác phẩm mới.

Như vậy, nếu MHNT được huấn luyện bằng cách sử dụng dữ liệu từ các tác phẩm được bảo hộ quyền tác giả, nhưng không sao chép cách thể hiện ý tưởng sáng tạo của các tác phẩm này, thì sẽ không bị coi là hành vi xâm phạm.

Nhưng nếu MHNT tạo ra tác phẩm phái sinh thì sao? Quan điểm cho rằng việc MHNT tạo ra văn bản hay hình ảnh tương tự với tác phẩm gốc có thể là hành vi tạo ra tác phẩm phái sinh là chưa có cơ sở vững chắc.

Theo Luật SHTT Việt Nam, tác phẩm phái sinh là tác phẩm được sáng tạo trên nền của tác phẩm gốc, nhưng có cách thể hiện dưới hình thức khác, và không gây phương hại đến quyền tác giả đối với tác phẩm gốc. Để được xem là tác phẩm phái sinh, tác phẩm mới cần thỏa mãn cả hai dấu hiệu sau:

(i) Tác phẩm mới cần có liên kết nhất định về mặt nội dung, thông điệp truyền tải, hay tinh thần với tác phẩm gốc; và

(ii) Tác phẩm mới thể hiện được dấu ấn cá nhân của tác giả, tức là không chỉ sao chép thuần túy từ tác phẩm gốc, hoặc không có tính sáng tạo so với tác phẩm gốc.

Trong trường hợp MHNT tạo ra nội dung để phản hồi người dùng, không dễ để kết luận hai dấu hiệu trên được thỏa mãn, vì:

Thứ nhất, nội dung do MHNT tạo ra thường chỉ có liên kết về mặt hình thức với tác phẩm gốc. Chẳng hạn, ChatGPT có thể tạo ra nội dung trả lời mang “phong cách” hay “dựa trên” tác phẩm nào đó. Tuy nhiên, nội dung này khó có thể được coi là có liên kết về mặt nội dung, thông điệp truyền tải, hay tinh thần với tác phẩm gốc.

Thứ hai, nội dung do MHNT tạo ra khó có thể được coi là thể hiện được dấu ấn cá nhân của tác giả. Khi chúng ta sáng tạo ra một thứ gì đó, chúng ta sẽ để lại dấu ấn của mình vào đó. Ví dụ, khi chúng ta viết một bài thơ, chúng ta có thể sử dụng ngôn ngữ, bố cục, gieo vần, phương pháp thể hiện theo cách riêng của mình. Dấu ấn cá nhân của chúng ta là điều khiến tác phẩm của chúng ta trở nên sáng tạo và độc đáo. Có thể thấy, tác phẩm do MHNT tạo ra thường không mang “dấu ấn cá nhân của tác giả” vì nó chỉ có thể tạo ra các tác phẩm dựa trên những gì nó đã được huấn luyện, chứ chưa thể suy nghĩ và sáng tạo độc lập để thể hiện được ý tưởng, quan điểm, phong cách… như một con người.

Khả năng tồn tại hành vi xâm phạm quyền tác giả của người dùng trong quá trình sử dụng MHNT?

GPT-3 hay LLaMA là hai ví dụ của MHNT. Đây là các mô hình ngôn ngữ lớn, có khả năng tạo ra các văn bản giống như con người. Các mô hình này được sử dụng để phát triển các ứng dụng chat phổ biến như ChatGPT và LLaMA-2 Chat. Người dùng sử dụng các ứng dụng này bằng cách cung cấp mô tả yêu cầu, hình ảnh hoặc văn bản minh họa để tạo ra nội dung mong muốn. MHNT không tự quyết định cách tạo ra nội dung, mà chỉ phản ứng theo hướng dẫn của con người.

Do đó, về lý thuyết, người dùng có thể được coi là tác giả và người sáng tạo thực sự của nội dung được tạo ra bởi MHNT. Tuy nhiên, nếu nội dung này giống với tác phẩm đang được bảo hộ quyền tác giả, thì có rủi ro người dùng có thể bị cáo buộc vi phạm quyền tác giả.

Việc chứng minh hành vi vi phạm quyền tác giả trong trường hợp này không dễ dàng, vì người dùng không truy cập trực tiếp vào dữ liệu huấn luyện của MHNT. Dữ liệu này được tạo ra từ một tập hợp khổng lồ các văn bản và hình ảnh, bao gồm cả các tác phẩm được bảo hộ quyền tác giả. Do đó, rất khó để xác định liệu MHNT có sử dụng dữ liệu này để tạo ra nội dung vi phạm hay không.

Bài học rút ra

Theo Luật SHTT Việt Nam hiện hành, việc xác định trách nhiệm của các bên liên quan trong trường hợp MHNT tạo ra tác phẩm xâm phạm quyền tác giả là không rõ ràng. Cơ quan thực thi pháp luật có thể dựa trên nhiều yếu tố để đưa ra kết luận, và quan điểm của họ có thể thay đổi theo thời gian. Để hạn chế rủi ro pháp lý, các bên liên quan cần cân nhắc các gợi ý sau:

Đối với doanh nghiệp phát triển MHNT, cần dự liệu khả năng việc huấn luyện MHNT có thể cấu thành một hành vi xâm phạm quyền tác giả. Do vậy, doanh nghiệp nên cẩn thận khi chọn dùng tập dữ liệu huấn luyện, quan tâm hơn đến nguồn gốc dữ liệu đầu vào. Tốt hơn hết, doanh nghiệp nên yêu cầu nhà cung cấp dữ liệu phải đảm bảo các dữ liệu này là hợp pháp, và ràng buộc trong hợp đồng để loại trừ trách nhiệm liên quan.

Trường hợp nếu tự tin rằng MHNT của mình tuân thủ pháp luật, thì để củng cố niềm tin, vị thế và uy tín, doanh nghiệp có thể đưa ra tuyên bố với nội dung đảm bảo với người dùng rằng doanh nghiệp sẽ chịu trách nhiệm về những rủi ro pháp lý tiềm ẩn liên quan đến xâm phạm quyền tác giả trong quá trình vận hành của MHNT, miễn là người dùng không sử dụng với dụng ý, chủ đích tạo ra các nội dung xâm phạm quyền tác giả.

Đối với người dùng các ứng dụng được phát triển từ MHNT, cần lưu ý xem xét các nội dung “Điều khoản và điều kiện” khi tải ứng dụng hay khi tạo tài khoản, hoặc chính sách dịch vụ khi quyết định mua gói dùng có trả phí. Mục đích là nhằm đánh giá trách nhiệm cá nhân của mình trong quá trình sử dụng, nếu chẳng may phát sinh hành vi vi phạm quyền tác giả. Trường hợp các quy định và chính sách là khá bất lợi, người dùng có quyền lựa chọn chấp nhận sử dụng hoặc cân nhắc chuyển sang dùng ứng dụng khác tối ưu hơn.

(*) Cộng sự, Vision & Associates
(**) Luật sư, Lawlink Việt Nam

Trần Quốc Thái (*) - Nguyễn Thị Kim Thanh (**)

Nguồn Saigon Times: https://thesaigontimes.vn/mo-hinh-nen-tang-qua-lang-kinh-phap-luat-viet-nam-ve-quyen-tac-gia/