Có thể ngăn Facebook lấy dữ liệu để huấn luyện cho AI?

Người dùng Internet hiện có khả năng xóa thông tin cá nhân mà Meta đang thu thập để dùng cho việc đào tạo mô hình AI tạo sinh.

Mô hình AI ngày nay đòi hỏi một lượng dữ liệu đầu vào lớn để phát triển. Dữ liệu này bao gồm hình ảnh, bài viết, bình luận và nhiều nguồn khác từ Internet, bao gồm cả thông tin cá nhân của người dùng mạng xã hội.

Meta đã cung cấp cho người dùng một tùy chọn để thay đổi hoặc xóa bất kỳ thông tin cá nhân nào mà công ty sử dụng để đào tạo các mô hình AI liên quan đến ngôn ngữ lớn. Theo thông tin cập nhật mới nhất, người dùng có thể truy cập mục “Quyền của chủ thể dữ liệu đối với AI tạo sinh” trong trang trợ giúp của họ.

Tại đây, có ba lựa chọn: “Tôi muốn truy cập, tải xuống hoặc chỉnh sửa thông tin cá nhân mà các bên thứ ba đã cung cấp để sử dụng cho AI tạo sinh”; “Tôi muốn xóa tất cả thông tin cá nhân mà các bên thứ ba đã cung cấp để sử dụng cho AI tạo sinh” và “Lựa chọn khác”.

Với tùy chọn đầu tiên, người dùng có thể tải xuống dữ liệu đã được “bên thứ ba” thu thập và xem xét trước khi đồng ý cho Meta sử dụng chúng để đào tạo AI. Tùy chọn thứ hai yêu cầu nền tảng xóa mọi thông tin cá nhân đang lưu trữ. Nếu có yêu cầu khác, người dùng cần cung cấp họ tên, quốc gia cư trú và email cùng với ý kiến của họ và sau đó gửi đi.

Sau khi chọn một trong ba tùy chọn, người dùng cần hoàn thành một bài kiểm tra kiểm tra bảo mật. Tuy nhiên, theo CNBC, một số người dùng đã báo cáo về sự cố không thể hoàn thành biểu mẫu vì “có vẻ như lỗi phần mềm”.

Meta định nghĩa thông tin của bên thứ ba là dữ liệu “được công khai trên Internet hoặc các nguồn được cấp phép”. Công ty cho biết loại thông tin này “có thể đại diện cho một số trong số hàng tỷ mẫu dữ liệu” được sử dụng để đào tạo AI bằng cách tổng hợp, dự đoán và tạo ra nội dung mới.

Trong một bài đăng trên blog vào ngày 30/8, Meta cho biết họ thu thập thông tin công khai này, cùng với việc sử dụng dữ liệu được cấp phép từ các đối tác. Họ lý giải: “Để dạy mô hình một cách hiệu quả, chúng tôi cần một lượng dữ liệu lớn. Do đó, chúng tôi sử dụng kết hợp các nguồn khác nhau trong quá trình đào tạo. Những nguồn này bao gồm thông tin công khai trên mạng, thông tin được cấp phép, cũng như thông tin từ các sản phẩm và dịch vụ của Meta.”

Trong quá trình thu thập, Meta có thể lấy được cả thông tin cá nhân. Ví dụ, một bài viết công khai có thể chứa thông tin về tác giả. Công ty cam kết rằng trong quá trình thu thập dữ liệu, quyền riêng tư của người dùng được đảm bảo và có đội ngũ chuyên nghiệp chịu trách nhiệm giữ gìn quyền này.

Meta hiện đang sử dụng mô hình ngôn ngữ lớn LLaMA, mà công bố vào đầu năm nay. Mô hình hoạt động dưới dạng mã nguồn mở, cho phép nhà nghiên cứu và tổ chức khác sử dụng nó miễn phí. Phát ngôn viên của Meta cho biết phiên bản LLaMA thế hệ mới, LLaMA 2, không sử dụng dữ liệu của người dùng từ các nền tảng như Facebook và Instagram của Meta để đào tạo AI.

Phát ngôn viên của Meta nói: “Tùy thuộc vào nơi cư trú, mọi người có thể thực hiện quyền kiểm soát dữ liệu của họ và có thể phản đối việc chúng tôi sử dụng một số dữ liệu cụ thể để đào tạo AI. Họ cũng có quyền biết cách thông tin cá nhân của họ được sử dụng.”

Hiện nay, hầu hết các công ty công nghệ lớn như Meta, Microsoft, Google và OpenAI vẫn sử dụng dữ liệu công khai từ Internet để đào tạo AI. Tuy nhiên, có sự lo ngại từ cộng đồng chuyên gia về cách dữ liệu lớn này được sử dụng.

Mới đây, một liên minh gồm các cơ quan bảo vệ dữ liệu từ Anh, Canada, Thụy Sĩ và nhiều nước khác đã phát đi thông cáo chung yêu cầu các công ty công nghệ lớn như Meta, Alphabet, ByteDance, X, Microsoft tuân thủ quy định về bảo vệ dữ liệu và quyền riêng tư tại các quốc gia họ hoạt động. Liên minh cũng khuyến nghị người dùng nâng cao ý thức về việc kiểm soát và bảo vệ thông tin cá nhân trực tuyến.

Xem thêm: