Cum să blocați crawlerele OpenAI de la răzuirea site-ului dvs

În timp ce utilizatorii iubesc ChatGPT pentru cantitatea mare de informații pe care o deține în prezent, nu același lucru se poate spune despre proprietarii de site-uri web.

ChatGPT de la OpenAI folosește crawler-uri pentru a răzui site-uri web, dar dacă sunteți proprietarul unui site web și nu doriți ca crawler-ul OpenAI să vă acceseze site-ul web, iată câteva lucruri pe care le puteți face pentru a preveni acest lucru.

Cum funcționează crawlingul OpenAI?

Un web crawler (cunoscut și sub numele de spider sau robot de căutare) este un program automat care scanează internetul pentru informații. Apoi, compilează acele informații într-un mod care este ușor de accesat pentru motorul dvs. de căutare.

Crawlerele web indexează fiecare pagină a fiecărei adrese URL relevante, concentrându-se de obicei pe site-urile web care sunt mai relevante pentru interogările dvs. de căutare. De exemplu, să presupunem că căutați pe Google o anumită eroare Windows. Crawler-ul web din motorul dvs. de căutare va scana toate adresele URL de pe site-urile web pe care le consideră mai autorizate pe tema erorilor Windows.

Crawler-ul web al OpenAI se numește GPTBot și, conform documentația OpenAIoferirea accesului GPTBot la site-ul dvs. web poate ajuta la antrenarea modelului AI pentru a deveni mai sigur și mai precis și poate ajuta chiar la extinderea capabilităților modelului AI.

  Cum să vă actualizați Apple AirPods

Cum să împiedicați OpenAI să vă acceseze cu crawlere site-ul web

La fel ca majoritatea celorlalte crawler-uri web, GPTBot poate fi blocat de la accesarea site-ului dvs. prin modificarea protocolului robots.txt al site-ului (cunoscut și ca protocol de excludere a roboților). Acest fișier .txt este găzduit pe serverul site-ului web și controlează modul în care crawlerele web și alte programe automate se comportă pe site-ul dvs.

Iată o listă scurtă cu ceea ce poate face fișierul robot.txt:

  • Poate bloca complet accesul GPTBot pe site-ul web.
  • Poate bloca accesarea de către GPTBot numai a anumitor pagini dintr-o adresă URL.
  • Poate spune GPTBot ce link-uri poate urma și pe care nu.

Iată cum să controlați ce poate face GPTBot pe site-ul dvs.:

Blocați complet accesul GPTBot pe site-ul dvs. web

  • Configurați fișierul robot.txt, apoi editați-l cu orice instrument de editare a textului.
  • Adăugați GPTBot pe site-ul robots.txt, după cum urmează:
  •  User-agent: GPTBot
    Disallow: /

    Blocați accesarea numai a anumitor pagini de către GPTBot

  • Configurați fișierul robot.txt, apoi editați-l cu instrumentul de editare de text preferat.
  • Adăugați GPTBot pe site-ul dvs. robots.txt, după cum urmează:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    Cu toate acestea, rețineți că modificarea fișierului robot.txt nu este o soluție retroactivă și orice informație pe care GPTBot le-a adunat deja de pe site-ul dvs. web nu va putea fi recuperată.

    OpenAI permite proprietarilor de site-uri web să renunțe la accesarea cu crawlere

    De când crawlerele au fost folosite pentru a antrena modele AI, proprietarii de site-uri web au căutat modalități de a-și păstra datele private.

    Unii se tem că modelele de inteligență artificială le fură, practic, munca, atribuind chiar mai puține vizite pe site-uri web, faptului că acum utilizatorii își obțin informațiile fără a fi nevoiți să le viziteze vreodată site-urile web.

      Pe care ar trebui să-l cumpărați?

    Una peste alta, dacă doriți să blocați complet chatboții AI de la scanarea site-urilor dvs. este alegerea completă a dvs.