AI sắp ra mắt cho dữ liệu truyền thông xã hội của bạn: Bạn có thể làm gì với nó không?

Maya Patel included in Social Media Online Privacy Artificial Intelligence

2024-03-06 1703 words 8 minutes

Contents

Bài học chính

Mặc dù mối lo ngại ngày càng tăng về quyền riêng tư của thông tin người dùng trên các nền tảng truyền thông xã hội, nhưng có thông tin cho rằng một số nền tảng này đã bán quyền truy cập dữ liệu người dùng cho các công ty trí tuệ nhân tạo (AI) để đào tạo các mô hình AI sáng tạo của họ. Điều này đặt ra câu hỏi liên quan đến ý nghĩa đạo đức và hậu quả tiềm ẩn của những hành động đó.

Các nền tảng nói trên như Meta, Reddit, Tumblr và WordPress.com được biết là đã tham gia vào các thỏa thuận liên quan đến việc cấp phép dữ liệu cho mục đích đào tạo trí tuệ nhân tạo.

Người dùng có thể thực hiện một số hành động khiêm tốn để bảo vệ thông tin của mình bằng cách sửa đổi tùy chọn quyền riêng tư, từ chối chia sẻ và thực hiện thận trọng khi đăng nội dung lên internet.

Trong thời gian gần đây, các tập đoàn truyền thông xã hội đã khám phá các phương pháp mới để tận dụng thông tin người dùng bằng cách ký kết thỏa thuận với các công ty trí tuệ nhân tạo. Tuy nhiên, nó đặt ra câu hỏi là những biện pháp nào mà các cá nhân bình thường có thể áp dụng để bảo vệ dữ liệu cá nhân và các tác phẩm kỹ thuật số của họ khỏi bị khai thác trong các giao dịch như vậy.

Nền tảng truyền thông xã hội đạt được thỏa thuận với các công ty AI

Việc sử dụng thông tin mạng xã hội để đào tạo các mô hình trí tuệ nhân tạo đã gây ra cuộc tranh luận đáng kể, tuy nhiên có vẻ như các công ty truyền thông xã hội không sẵn lòng từ bỏ dữ liệu người dùng.

Meta đã tích hợp dữ liệu truyền thông xã hội vào các tính năng AI tổng quát của nó, được giới thiệu trong sự kiện Meta Connect. Các tính năng này bao gồm Meta AI và các khả năng như tạo biểu tượng cảm xúc do AI điều khiển cho các nền tảng như WhatsApp.

Như Mike Clark, Giám đốc Quản lý Sản phẩm tại Meta, đã nêu trong một bài đăng trên Meta Newsroom:

Các mô hình trí tuệ nhân tạo được sử dụng trong các tính năng được giới thiệu trong sự kiện gần đây của chúng tôi, có tên là Connect, đã được đào tạo bằng cách sử dụng nội dung có sẵn công khai từ cả Instagram và Facebook, bao gồm cả hình ảnh và chú thích đi kèm.

Xu hướng này dường như không hề chậm lại theo Reuters, Reddit đã đạt được thỏa thuận với Google để cung cấp nội dung của nền tảng truyền thông xã hội cho việc đào tạo các mô hình AI.

Hồ sơ S-1 của Reddit cho đợt IPO của mình, nộp vào ngày 22 tháng 2 năm 2024, xác nhận rằng công ty đang khám phá các thỏa thuận cấp phép. Hồ sơ nêu rõ:

Việc sử dụng dữ liệu Reddit đã được chứng minh là cần thiết cho sự phát triển của các công nghệ trí tuệ nhân tạo đương đại, bao gồm cả các mô hình ngôn ngữ lớn (LLM). Do đó, chúng tôi dự đoán rằng kho lưu trữ thông tin hội thoại và kiến thức chuyên môn phong phú của Reddit sẽ vẫn là công cụ giúp cải tiến và nâng cao khả năng của các hệ thống ngôn ngữ tiên tiến này.

Reddit đã khởi xướng một chương trình cho phép các thực thể bên ngoài có được quyền truy cập, kiểm tra và trình bày cả dữ liệu trước đây và hiện tại từ nền tảng của mình, với mục tiêu sử dụng thông tin này để nâng cao các mô hình ngôn ngữ lớn (LLM).

Và mặc dù Meta và Reddit là một trong những tên tuổi lớn nhất trong lĩnh vực truyền thông xã hội, nhưng họ không phải là nền tảng duy nhất liên quan đến việc sử dụng dữ liệu truyền thông xã hội để đào tạo AI. Theo báo cáo của 404 Media , Tumblr và WordPress.com là chuẩn bị bán dữ liệu người dùng cho Midjourney và OpenAI.

Bạn có thể ngăn các nền tảng bán dữ liệu mạng xã hội của mình để đào tạo AI không?

Việc sử dụng các nền tảng như Facebook, Instagram, Reddit, Tumblr và WordPress.com có thể dẫn đến việc nội dung có thể truy cập công khai của một người được đưa vào quá trình phát triển của Người học mô hình ngôn ngữ (LLM).

Ví dụ: nếu bạn sử dụng công cụ tìm kiếm của Washington Post để xem những trang web nào được đưa vào tập dữ liệu C4 của Google, đó là được sử dụng như một phần trong chương trình đào tạo của Bard, bạn sẽ thấy Reddit.com chiếm 7,9 triệu mã thông báo.

Tập dữ liệu bao gồm một loạt các nguồn nội dung đáng kể, bao gồm Tumblr.com với số lượng đáng kể khoảng 1,6 triệu mã thông báo, cũng như các trang web nhỏ hơn như trang web sử dụng WordPress.com của tôi, đóng góp tối thiểu chỉ với khoảng 14.000 mã thông báo. Điều đáng chú ý là ngay cả những blog cá nhân khiêm tốn này cũng được đưa vào phạm vi của tập dữ liệu.

Các thỏa thuận mới nổi giữa các công ty trí tuệ nhân tạo và các thực thể mạng xã hội đòi hỏi phải tiếp thị tích cực những dữ liệu đó, trái ngược với việc khai thác thụ động từ các nguồn trực tuyến.

Nhưng khi nói đến việc xử lý trong tương lai, bạn có thể làm gì với nó? Meta đã giới thiệu biểu mẫu dành cho quyền chủ thể dữ liệu AI tổng quát cho phép bạn phản đối hoặc hạn chế việc xử lý dữ liệu cá nhân của bạn từ các bên thứ ba để đào tạo Meta các mô hình AI sáng tạo.

Điều đáng chú ý là tùy chọn này không cho phép đưa ra phản đối đối với việc Meta xử lý dữ liệu người dùng nhằm mục đích đào tạo hệ thống trí tuệ nhân tạo. Ngoài ra, khi cố gắng gửi đơn phản đối thông qua biểu mẫu được cung cấp, người ta phát hiện ra rằng bằng chứng về việc thông tin cá nhân của một người được sử dụng trong kết quả đầu ra AI của Meta là bắt buộc như một phần của quy trình yêu cầu hỗ trợ.

Tumblr cung cấp giải pháp cho phép người dùng từ chối phổ biến các bài đăng blog công khai của họ tới các tổ chức bên ngoài thông qua cấu hình tài khoản của họ. Để truy cập tính năng này, hãy điều hướng đến trang hồ sơ của bạn và cuộn xuống cho đến khi bạn tìm thấy tùy chọn’Hiển thị’. Từ đó, chọn giải pháp thay thế ngăn chặn việc chia sẻ trái phép blog của bạn với bên thứ ba.

Khi sử dụng các nền tảng như Instagram, một chiến lược khả thi là thay đổi cài đặt quyền riêng tư của tài khoản của bạn để hạn chế khả năng truy cập. Mặc dù biện pháp này không đảm bảo tuyệt đối rằng thông tin của bạn sẽ không bị khai thác, nhưng do sự phổ biến của các hoạt động thu thập dữ liệu nhắm vào nội dung có sẵn công khai, việc chuyển sang tài khoản riêng tư có thể đóng vai trò là một biện pháp ngăn chặn đáng gờm.

Ngoài ra, bạn có tùy chọn định cấu hình tài khoản Twitter của mình ở chế độ riêng tư. Tuy nhiên, điều quan trọng cần lưu ý là biện pháp này không mang lại sự đảm bảo tuyệt đối về việc bảo vệ quyền riêng tư cho dữ liệu của bạn.

Tuyên bố chung của nhiều ủy viên thông tin quốc gia và chuyên gia trên khắp thế giới cũng đã đề xuất một số hành động cho các cá nhân đang tìm cách giảm thiểu rủi ro về quyền riêng tư khi các công ty AI thu thập dữ liệu. Lời khuyên bao gồm:

Vui lòng xem lại các điều khoản và điều kiện cũng như chính sách quyền riêng tư của trang web này để hiểu các hoạt động của nó liên quan đến việc chia sẻ dữ liệu cá nhân.

Khi chia sẻ thông tin cá nhân trên internet, điều quan trọng là phải thận trọng và kiềm chế, đặc biệt khi tiết lộ dữ liệu nhạy cảm.

⭐Quản lý cài đặt quyền riêng tư của bạn.

Khi xem xét nội dung mà một người chọn chia sẻ trên internet, điều quan trọng là phải duy trì quan điểm lâu dài và xem xét cẩn thận những tác động tiềm ẩn của việc tiết lộ đó trong cả tương lai trước mắt và tương lai xa.

Nếu bạn nghi ngờ rằng thông tin cá nhân của bạn đã bị trích xuất mà không có sự cho phép thích hợp từ nền tảng hoặc trang mạng xã hội, bạn nên liên hệ với nhà cung cấp dịch vụ tương ứng để làm rõ. Trong trường hợp bạn không hài lòng với phản hồi của họ, hãy cân nhắc việc gửi khiếu nại đến cơ quan bảo vệ dữ liệu thích hợp.

Bạn có tùy chọn xóa dữ liệu cụ thể mà các tổ chức bên thứ ba có thể truy cập được, mặc dù thông tin được đăng công khai trên hồ sơ của bạn có thể đã được người khác trích xuất.

Đáng tiếc là mức độ mà người dùng thông thường có thể bảo vệ dữ liệu của họ khỏi các tập đoàn AI còn hạn chế. Sự giám sát và thẩm quyền cuối cùng trong vấn đề này có thể cần đến sự can thiệp của các cơ quan quản lý.