Poți face ceva în privința asta?

Recomandări cheie

Platformele de rețele sociale vând date despre utilizatori companiilor de AI pentru formarea modelelor de AI generative, în ciuda preocupărilor legate de confidențialitate.
Platforme precum Meta, Reddit, Tumblr și WordPress.com sunt implicate activ în aceste oferte de licențiere a datelor pentru instruirea AI.
Utilizatorii pot face câțiva pași mici pentru a-și proteja datele, cum ar fi ajustarea setărilor de confidențialitate, renunțarea la partajare și să fie atenți la ceea ce postează online.

Una dintre cele mai noi moduri prin care companiile de social media monetizează datele utilizatorilor este prin acorduri cu companiile de AI. Dar există ceva ce pot face utilizatorii obișnuiți pentru a-și proteja datele și conținutul?

Folosirea datelor din rețelele sociale pentru a antrena modele AI generative a fost o mișcare controversată, dar acest lucru nu pare să împiedice companiile de rețele sociale să distribuie date utilizatorilor.

Meta folosește deja datele din rețelele sociale pentru a antrena funcțiile AI generative anunțate la Meta Connect în 2023. Aceasta include Meta AI și funcții precum crearea de stickere generate de AI pe WhatsApp.

După cum a declarat Mike Clark, director de management de produs la Meta, într-un Postare Meta Newsroom:

„Postările partajate în mod public de pe Instagram și Facebook – inclusiv fotografii și text – au făcut parte din datele folosite pentru a antrena modelele AI generative care stau la baza caracteristicilor pe care le-am anunțat la Connect.”

Această tendință nu pare să încetinească în 2024. Potrivit ReutersReddit a ajuns la o înțelegere cu Google pentru a face conținutul platformei de socializare disponibil pentru antrenarea modelelor AI.

9 cele mai bune aplicații care rulează pentru Apple Watch [2023]

Dosarul S-1 al lui Reddit pentru IPO, depusă la 22 februarie 2024, confirmă că compania explorează oferte de licențiere. Dosarul precizează:

„Datele Reddit sunt o piesă de bază pentru construcția tehnologiei actuale AI și a multor LLM. Credem că corpul masiv de date conversaționale și cunoștințe Reddit va continua să joace un rol în formarea și îmbunătățirea LLM-urilor.”

Acesta specifică faptul că Reddit este „în primele etape de a permite terților să acorde licențe de acces pentru a căuta, analiza și afișa date istorice și în timp real de pe platforma noastră” pentru a instrui LLM-uri.

Și, deși Meta și Reddit sunt unele dintre cele mai mari nume din rețelele sociale, nu sunt singurele platforme implicate în utilizarea datelor din rețelele sociale pentru a antrena AI. Potrivit unui raport de 404 MediaTumblr și WordPress.com se pregătesc să vândă datele utilizatorilor către Midjourney și OpenAI.

Sunt șanse ca dacă utilizați Facebook, Instagram, Reddit, Tumblr sau WordPress.com, conținutul dvs. disponibil public a fost deja folosit în formarea LLM-urilor.

De exemplu, dacă utilizați Instrumentul de căutare al Washington Post pentru a vedea ce site-uri au fost incluse în setul de date C4 de la Google, care a fost folosit ca parte a instruirii lui Bard, veți vedea că Reddit.com reprezintă 7,9 milioane de jetoane.

Tumblr.com reprezintă 1,6 milioane de jetoane. Micul meu site web, care folosește WordPress.com, a reprezentat 14.000 de jetoane – așa că blogurile personale mici s-ar putea să fi fost incluse în setul de date.

Odată cu ofertele în curs între companiile de inteligență artificială și companiile de rețele sociale, ofertele de licențiere vor însemna că aceste date vor fi vândute în mod activ, mai degrabă decât doar eliminate de pe web.

Următorul instrument de urmărire a erorilor

Dar când vine vorba de procesarea viitoare, ce poți face în privința asta? Meta a introdus un formular pentru drepturile generative ale persoanelor vizate de AI care vă permite să vă opuneți sau să restricționați prelucrarea datelor dumneavoastră cu caracter personal de la terți pentru antrenarea modelelor AI generative ale Meta.

În special, această opțiune nu vă permite să vă opuneți procesării proprii de către Meta a datelor dvs. pentru antrenarea AI generativă. În plus, atunci când am trimis un bilet pentru a mă opune utilizării datelor mele personale folosind formularul, biletul de asistență mi-a cerut să dovedesc că informațiile mele personale apăreau deja în rezultatele AI generative ale Meta.

Tumblr a introdus, de asemenea, o opțiune de a renunța la partajarea conținutului blogurilor tale publice cu terțe părți folosind setările blogului tău. Îl puteți găsi în setările dvs. făcând clic pe blogul dvs. și derulând în jos la setările de vizibilitate. Apoi alegeți Preveniți partajarea de la terți pentru blogul dvs.

Când vine vorba de o platformă precum Instagram, ați putea încerca să vă comutați contul de Instagram la privat pentru a preveni utilizarea datelor dvs. Acest lucru nu garantează că datele dvs. nu vor fi utilizate, dar, deoarece analizarea datelor pentru LLM-uri pare să se concentreze asupra datelor publice, ar putea fi o potențială protecție.

De asemenea, vă puteți face contul X (Twitter) privat, dar încă o dată aceasta este doar o potențială protecție și nu garantează că datele dvs. rămân private.

A declarație comună de către diverși comisari naționali de informare și experți din întreaga lume, a sugerat, de asemenea, unele acțiuni pentru persoanele care doresc să minimizeze riscul de confidențialitate al răzuirii datelor de către companiile AI. Sfatul include:

Citiți termenii și politica de confidențialitate a unui site web pentru a vedea cum vă partajează informațiile personale.
Limitați informațiile pe care le postați online, în special informațiile sensibile.
Gestionați-vă setările de confidențialitate.
Gândiți-vă pe termen lung la informațiile pe care le distribuiți online.
Contactați compania de social media sau site-ul web dacă credeți că datele dvs. au fost răzuite în mod necorespunzător. Dacă sunteți nemulțumit de răspunsul lor, depuneți o plângere la autoritatea competentă pentru protecția datelor.

Înțelegerea cuvântului cheie JavaScript „acest”

De asemenea, puteți șterge anumite informații online, dacă nu vă convine că terții au acces la ele, deși este posibil ca informațiile disponibile public din profilurile dvs. să fi fost deja eliminate.

Din păcate, noi, utilizatorii obișnuiți, putem face doar atâtea lucruri pentru a ne proteja datele de companiile AI. Controlul real asupra acestor informații va veni probabil doar cu ajutorul autorităților de reglementare.