Đội đỏ - Đội quân của Big Tech thuê nhằm "đầu độc" AI

Các chuyên gia của đội đỏ, chuyên về đào tạo trí tuệ nhân tạo với thông tin sai lệch, đóng một vai trò quan trọng trong lĩnh vực này.

Vào tháng 10 năm trước, trước khi ChatGPT ra mắt, OpenAI thuê một luật sư tên Boru Gollo từ Kenya để thử nghiệm mô hình AI có tên GPT-3.5, với mục tiêu phát hiện các định kiến không hợp lý về người châu Phi và người Hồi giáo. Không giống như những người chỉ dán nhãn cho AI, Gollo được giao nhiệm vụ “đầu độc AI”, tức là cung cấp các hướng dẫn để làm cho chatbot tạo ra phản ứng có thể gây hại hoặc thiên vị.

Gollo là một trong số 50 chuyên gia bên ngoài mà OpenAI đã tuyển dụng để trở thành thành viên của đội đỏ, người chú trọng đào tạo các mô hình AI như ChatGPT với nội dung sai lệch để phát hiện và loại bỏ chúng trước khi chúng ra mắt phiên bản chính thức.

Ở OpenAI, các thành viên của “đội đỏ” thao tác trên nhiều phiên bản mô hình AI, bao gồm GPT-3, GPT-3.5 và GPT-4. Họ cung cấp nội dung có hại, ví dụ như viết bài trên Facebook về cách gia nhập khủng bố, tìm cách mua súng không có giấy phép, hoặc tạo ra chất nổ tại nhà, sau đó huấn luyện AI không trả lời nếu người dùng hỏi về nội dung tương tự trong tương lai. Vai trò của đội đỏ là “tư duy như kẻ thù của AI,” để đánh lạc hướng hoặc đánh lừa hệ thống và từ đó phát hiện những điểm mù và nguy cơ tiềm ẩn để khắc phục.

Với sự cạnh tranh ngày càng khốc liệt trong việc phát triển các mô hình AI tạo sinh, vai trò của đội đỏ ngày càng trở nên quan trọng hơn. Vào tháng 7, Meta cũng đã thành lập một đội tương tự cho mô hình Llama 2, trong khi Google đã có một nhóm tương tự từ đầu năm.

Tuy nhiên, các thành viên của đội đỏ phải cân nhắc cẩn thận giữa việc đảm bảo an toàn và bảo mật, đồng thời đảm bảo rằng nội dung có hại được loại bỏ một cách thích hợp để đảm bảo các chức năng hữu ích cho người dùng. “Một mô hình quá cẩn trọng sẽ an toàn nhưng vô dụng. Mỗi khi bạn tạo ra điều gì đó hữu ích, rủi ro cũng tăng lên vì mô hình có thể tạo ra câu trả lời không an toàn,” – Cristian Canton, người đứng đầu bộ phận đội đỏ của Facebook, đã nói.

Mô hình của đội đỏ đã xuất hiện từ những năm 1960, khi các cuộc tấn công mô phỏng đã được tạo ra để đảm bảo rằng hệ thống máy tính hoạt động một cách ổn định. “Trong lĩnh vực máy tính, không có khái niệm ‘an toàn’. Thay vào đó, những gì các kỹ sư có thể nói là: chúng tôi đã cố gắng nhưng chưa phá vỡ được nó,” – Bruce Schneier, chuyên gia về bảo mật và thành viên của Trung tâm nghiên cứu Berkman Klein thuộc Đại học Harvard, đã nói.

Khác với máy tính, AI tạo sinh được đào tạo trên các kho dữ liệu khổng lồ. Theo Daniel Fabian, người đứng đầu đội đỏ của Google, mô hình AI khác biệt hoàn toàn với bảo mật truyền thống. Ngoài việc đặt ra các câu hỏi nguy hiểm và độc hại để huấn luyện, các thành viên phải sử dụng chiến thuật như trích xuất dữ liệu đào tạo, chủ yếu là thông tin cá nhân như tên, địa chỉ và số điện thoại, cũng như “đầu độc” tập dữ liệu bằng cách thay đổi một phần nội dung trước khi sử dụng để huấn luyện mô hình AI.

Theo Daniel Rohrer, Phó giám đốc bảo mật phần mềm của Nvidia, lĩnh vực huấn luyện ngược mô hình AI đang ở giai đoạn đầu, với các nhóm “rất nhỏ bé”, nên họ thường có xu hướng hợp tác và chia sẻ những gì họ đã tìm thấy.

Ram Shankar Siva Kumar, người có 5 năm kinh nghiệm trong việc huấn luyện AI, nói rằng trước khi thử nghiệm một hệ thống trí tuệ nhân tạo, nhóm của ông sẽ thu thập dữ liệu về các mối đe dọa mạng từ các nguồn được gọi là “mắt trên Internet”. Sau đó, ông sẽ liên hệ với các đội đỏ ở nơi khác, như Microsoft hoặc Google, để xác định lỗ hổng nào trong hệ thống AI cần được nhắm đến và cách thức để khắc phục.

Với sự phát triển ngày càng nhanh chóng, AI đang được nhiều chính phủ kiểm soát. Để đối phó với nhiều tình huống, các công ty AI đã mở cửa mô hình để cho những hacker tấn công. Sự kiện bảo mật Defcon ở Las Vegas tháng trước được xem là cuộc tập trận cho các đội đỏ AI. Tám công ty, bao gồm OpenAI, Google, Meta, Nvidia, Stability AI và Anthropic, đã “mở cửa” mô hình AI để hơn 2.000 hacker tấn công và tìm ra lỗ hổng bảo mật. Trong số 8 mô hình đó, hacker đã phát hiện khoảng 2.700 lỗ hổng.

“Credo của chúng tôi là: Càng nỗ lực nhiều trong quá trình huấn luyện, bạn sẽ càng tránh được nhiều rủi ro trong cuộc chiến,” Canton của Facebook nói.

Xem thêm: