Các nhà phát triển AI sử dụng trái phép nội dung của bên thứ 3 ?

Các công ty OpenAI, Google và Anthropic đã áp đặt hạn chế về việc sử dụng dữ liệu của riêng họ để huấn luyện các mô hình trí tuệ nhân tạo khác, tuy nhiên, họ đã được phát hiện sử dụng trái phép nội dung của bên thứ ba.

Sam Altman – Giám đốc điều hành của OpenAI, tuyên thệ trước Thượng viện Mỹ. Ảnh: Reuters.

Trong thời đại mới của trí tuệ nhân tạo (AI), các ông lớn công nghệ này đang thực hiện phương châm “làm như tôi nói, đừng như tôi làm” khi nói đến việc sử dụng nội dung trực tuyến.

Trong nhiều năm qua, OpenAI, Google và Anthropic đã sử dụng dữ liệu từ các công ty khác để huấn luyện mô hình AI của họ. Hoạt động này không được cấp phép đã trở thành một phần trong cuộc chiến pháp lý đang diễn ra. Kết quả của cuộc chiến này sẽ quyết định tương lai của nội dung trên nền tảng web và cách thực thi quy định về bản quyền trong thời đại hiện nay.

Lời nói không đi đôi với hành động!

Thỏa thuận sử dụng dịch vụ của trợ lý AI Claude từ Anthropic rõ ràng nêu: “Bạn không thể truy cập hoặc sử dụng dịch vụ theo các cách sau: Để phát triển bất kỳ sản phẩm hoặc dịch vụ nào cạnh tranh với dịch vụ của chúng tôi, bao gồm cả việc phát triển hoặc huấn luyện bất kỳ thuật toán, mô hình trí tuệ nhân tạo hoặc máy học nào”.

Điều khoản sử dụng dịch vụ tạo sinh trí tuệ nhân tạo của Google cũng cho biết: “Bạn không được sử dụng dịch vụ để phát triển các mô hình máy học hoặc công nghệ liên quan”.

Tóm lại, các công ty này đã hạn chế việc sử dụng dữ liệu của mình cho mục đích huấn luyện AI và đồng thời sử dụng trái phép nội dung từ bên thứ ba.

ChatGPT, công ty đứng sau dự án ChatGPT, đã đặt ra yêu cầu rằng “Bạn không được sử dụng đầu ra từ dịch vụ để phát triển các mô hình cạnh tranh với OpenAI”.

OpenAI không cho phép sử dụng nội dung của chatGPT cho việc huấn luyện AI

Các công ty công nghệ lớn đều đã cấm việc sử dụng dữ liệu của riêng họ để huấn luyện các mô hình trí tuệ nhân tạo bên ngoài. Tuy nhiên, tại sao họ được phép sử dụng dữ liệu của người khác để làm điều này?

Theo Business Insider, nhận định này của các công ty không phải là vô lý. Họ nhận thức rằng nội dung chất lượng là yếu tố quan trọng để huấn luyện các mô hình trí tuệ nhân tạo mới. Vì vậy, họ không cho phép sử dụng đầu ra của mình cho mục đích đó.

Các nhà phát triển AI sử dụng trái phép nội dung của bên thứ 3

Tuy nhiên, vấn đề nảy sinh khi Google, OpenAI và Anthropic đã âm thầm sử dụng lượng lớn nội dung trên Internet mà không gặp bất kỳ hạn chế nào. Và khi Business Insider yêu cầu ý kiến, tất cả các công ty đều im lặng.

Các công ty khác bắt đầu nhận thấy tình hình này. Reddit, một trong những cộng đồng trực tuyến lớn nhất thế giới, sở hữu một kho lưu trữ nội dung đồ sộ, đã quyết định tính phí truy cập vào dữ liệu của mình sau nhiều năm sử dụng để huấn luyện mô hình trí tuệ nhân tạo.

Điều này cho thấy sự nhạy bén của các công ty về việc sử dụng dữ liệu và đặt ra câu hỏi về tương lai của nội dung trên Internet và việc thực thi quyền sở hữu trí tuệ trong thời đại hiện nay.

“Khối dữ liệu trên Reddit thực sự có giá trị. Tuy nhiên, chúng tôi không muốn cung cấp miễn phí toàn bộ giá trị đó cho một số công ty lớn nhất trên thế giới”, CEO Reddit, Steve Huffman, đã chia sẻ.

Một số nhà sản xuất nội dung khác, trong đó có Reddit, nhận ra giá trị của họ trong việc huấn luyện AI. Ảnh: Reuters.

Vào tháng 4, Elon Musk đã cáo buộc Microsoft, nhà tài trợ chính của OpenAI, việc sử dụng trái phép dữ liệu từ Twitter để huấn luyện các mô hình trí tuệ nhân tạo. “Họ đã huấn luyện AI bằng cách sử dụng trái phép dữ liệu từ Twitter. Đã đến lúc điều này phải được giải quyết trước tòa”, CEO Elon Musk đăng trên trang cá nhân và bài viết đó đã nhận được hơn 198.000 lượt thích.

Một phát ngôn viên của Microsoft đã viết trong email phản hồi yêu cầu ý kiến của Business Insider rằng: “Có quá nhiều sai lầm trong giả thuyết này, tôi thậm chí không biết nên bắt đầu từ đâu”.

Trong khi đó, dường như CEO của OpenAI, Sam Altman, đang cố gắng đưa ra những suy nghĩ sâu sắc hơn bằng cách phát triển các mô hình trí tuệ nhân tạo mới và tôn trọng quyền sở hữu trí tuệ.

Tóm lại, việc sử dụng dữ liệu từ Reddit và Twitter để huấn luyện các mô hình trí tuệ nhân tạo đã gây tranh cãi và đặt ra nhiều vấn đề về bản quyền và tầm quan trọng của việc tôn trọng quyền sở hữu trí tuệ.

“Chúng tôi đang nỗ lực làm việc trên các mô hình mới, trong đó, nếu hệ thống trí tuệ nhân tạo sử dụng nội dung của bạn, bạn sẽ được thanh toán,” ông đã tuyên bố trong một sự kiện gần đây.

Các nhà sản xuất nội dung sẽ hưởng lợi từ điều này. Một số công ty xuất bản, bao gồm tập đoàn truyền thông News Corp, đã bắt đầu khuyến khích các công ty công nghệ trả tiền để sử dụng nội dung của họ cho huấn luyện các mô hình trí tuệ nhân tạo.

Tuy nhiên, vẫn còn một mối đe dọa khác. Steven Sinofsky, cựu lãnh đạo cấp cao của Microsoft, cho rằng cách huấn luyện các mô hình trí tuệ nhân tạo hiện tại đang “phá vỡ” cấu trúc của web.

“Thu thập dữ liệu trước đây được coi là một việc hợp pháp để có được các nhấp chuột. Nhưng bây giờ, việc thu thập dữ liệu chỉ đơn giản là để huấn luyện mô hình mà không có giá trị được trao cho những người sáng tạo/chủ sở hữu bản quyền,” ông đã chia sẻ ý kiến trên trang cá nhân.

Theo MobiFone Công Nghệ Số, việc phát triển của thế giới nói chung đều cần dựa trên một số nguyên tắc và chuẩn mực nhất định để tránh gây ra các ảnh hưởng tiêu cực. Trong những năm gần đây, đúng như các cảnh báo và dự đoán từ trước, tình trạng biến đổi khí hậu đang ngày càng trầm trọng khiến trái đất vượt ngưỡng an toàn đối với con người. Việc phát triển AI cũng vì vậy mà cần phải theo dõi sát sao! Mong rằng các cơ quan có thẩm quyền sẽ kiểm soát chặt chẽ hơn về mọi mặt để giữ mọi thứ luôn trong tầm kiểm soát!

Nguồn: Zing News

Xem thêm: