Cum să utilizați ChatGPT pentru web scraping folosind pluginuri și interpret de cod

Un ghid detaliat pentru web scraping folosind ChatGPT Code Interpreter și pluginurile sale.

Dacă nu vă place să creați ceva nou, sunt șanse să aveți nevoie de informații prealabile pentru a începe. Sau, ați putea dori să vă uitați la concurență pentru informații valoroase. În plus, pot exista nenumărate motive pentru care cineva să fie interesat de conținutul unui anumit site web.

Web scraping este procesul care servește astfel de cazuri de utilizare.

Și există câteva moduri de a proceda în acest sens. Există instrumente grele la care vă puteți abona pentru răzuirea profesională a site-urilor web mari. Alternativ, este posibil să aveți nevoie de o configurare specifică pentru procesarea locală.

Oricum, abordarea este costisitoare, consumatoare de timp și plictisitoare pentru începători, în special pentru a răzui câteva pagini web.

Prezentare generală a ChatGPT pentru Web Scraping

Nu ar trebui să vă prezint ChatGPT. sunt eu?

Pe scurt, ChatGPT este un AI generativ care răspunde ca oamenii. Primești o interfață de chat pentru a-i cere să finalizeze diverse sarcini, cum ar fi întrebarea despre evenimente istorice, scrierea de eseuri, rezumatul, traducerea, codificarea etc.

ChatGPT răspunde în text. Cu toate acestea, există pluginuri ChatGPT care își îmbunătățesc capacitățile în multe feluri. Și vom folosi un astfel de plugin. În plus, vom folosi Interpretul său de cod pentru scraping site-uri care au structuri complicate de pagini web sau cu protocoale active anti-scraping.

Vă rugăm să știți că ChatGPT are versiuni gratuite și cu plată. Dar veți avea nevoie de abonamentul plătit (în prezent, 20 USD pe lună) pentru a utiliza pluginul web scraper sau motorul său Code Interpreter.

  13 Cel mai bun software de management al talentelor pentru managerii de resurse umane

În secțiunile următoare, voi ilustra procesul pas cu pas.

Disclaimer: înainte de a continua, vă rugăm să confirmați că site-ul web vizat permite eliminarea conținutului acestora. Dacă nu, puteți să contactați administratorul și să vedeți dacă vă permite pentru a evita orice probleme legale.

Web Scraping folosind pluginul ChatGPT

Conectați-vă la dvs Cont OpenAIplasați cursorul peste GPT-4 (versiunea actuală cu plată) și faceți clic pe Pluginuri.

Apoi, faceți clic pe Niciun plugin activat, derulați în jos și faceți clic pe Magazin de pluginuri.

Vă rugăm să rețineți că în loc de Nu există pluginuri activate, veți avea o pictogramă de plugin dacă unul este activ. În acest caz, trebuie să faceți clic pe pictograma respectivă pentru a deschide meniul drop-down și să faceți clic pe magazinul de pluginuri din partea de jos.

Aceasta va deschide magazinul de pluginuri. Căutați Scraper și apăsați Instalare.

Selectați acest plugin în interfața ChatGPT.

Odată ce este selectat, trebuie să solicitați ChatGPT, menționând adresa URL a subiectului și conținutul pentru scraping.

Am făcut asta pentru câteva site-uri. Verificați asta.

Razuirea unei publicații

Suntem o publicație axată pe tehnologie și am ales pagina noastră de pornire, tipstrick.ro.com/ pentru această ilustrație.

Iată solicitarea:

check this webpage: https://tipstrick.ro.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.

De asemenea, se poate solicita din nou să convertească datele în format CSV, să le lipiți într-un fișier text cu extensia .csv și să-l deschideți într-o aplicație pentru foi de calcul precum MS Excel.

Îndepărtarea unei oferte sau a unei pagini web cu cupon

Secțiunea de oferte tipstrick.ro este locul în care am ales câteva oferte pentru proiecte de vârf. Ce zici de a prelua fiecare ofertă într-un format tabelar?

Prepare a list of deals from this webpage: https://tipstrick.ro.com/deals/. present the result in a tabular format.

Scraping Wikipedia

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page

Scraping magazine de comerț electronic

În cele din urmă, am încercat să răzuiesc Amazon.com pentru laptopuri, aplicând câteva filtre și introducând adresa URL la ChatGPT. Asta am primit:

  Cum să ștergi contul Reddit atunci când crezi că este timpul să-ți spui la revedere

Problema este că acesta nu este un singur caz. Veți găsi multe astfel de cazuri în care site-urile web au măsuri anti-răzuire. În această situație, va trebui să găsiți o alternativă pentru obținerea datelor dacă abonamentul la scraper-uri standard din industrie nu este o opțiune.

Următoarele secțiuni presupun o astfel de soluție.

Web Scraping folosind ChatGPT Code Interpreter

Code Interpreter este un motor ChatGPT recent lansat pentru a răspunde sarcinilor legate de programare. În timp ce motorul implicit se bazează în mare măsură pe răspunsurile text, Code Interpreter poate ajuta la vizualizarea ieșirilor, la analizarea, depanarea și executarea codului, integrarea cu binare software și realizarea mult mai multe lucruri centrate pe programare.

În acest proces, vom descărca codul HTML sursă, îl vom încărca în ChatGPT Code Interpreter și vom continua cu răzuirea.

Am luat această pagină pentru extragere:

Vom începe prin a salva pagina web ca HTML. Pentru asta, accesați pagina web și apăsați Ctrl+S.

Acum avem fișierul pentru răzuire. Să aflăm promptul.

În plus față de promptul text, puteți vedea că i-am dat elemente de probă pentru a accelera răzuirea. Deoarece structurile paginilor web ale Amazon sunt complexe, fără aceste mostre, încercarea de răzuire ar putea eșua sau nu duce la nimic.

Și obținerea acestor elemente este destul de ușoară. Faceți clic dreapta oriunde pe pagina web subiect și faceți clic pe Inspectare din fereastra pop-over.

Mai întâi, faceți clic pe pictograma de sus (marcată ca 1). Aceasta va evidenția detaliile în timp ce selectați elemente din pagină. Apoi, selectați elementul container pentru orice produs specific.

  Punerea celor mai bune instrumente de birou de asistență sub scaner

Asigurați-vă că selectați recipientul cel mai interior. Puteți trece cu mouse-ul și va continua să se evidențieze. În momentul în care obțineți ultimul shell care acoperă acel bloc, puteți face clic și mergeți în partea dreaptă pentru a copia clasa div a elementului.

În mod similar, selectați mostrele pentru alte elemente.

În cele din urmă, încărcați HTML și promptul similar cu acesta:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Acest lucru va dura ceva timp în timp ce ChatGPT Code Interpreter își va face treaba. Veți avea câteva detalii, în timp ce totul va fi în fișierul CSV încorporat.

Puteți observa că tabelul are câteva intrări care nu sunt prezente pe pagina web originală, mai ales la început. În astfel de cazuri, trebuie să verificați și să curățați datele pentru eventuale redundanțe.

Dacă există, puteți solicita din nou ChatGPT pentru a obține un CSV curat.

Gânduri finale

ChatGPT face multe lucruri, iar web scraping de bază este unul dintre ele. De acord, s-ar putea să nu fie potrivit pentru cineva care răzuiește sute de pagini. Totuși, vă va face să începeți în direcția corectă și este ideal pentru o sesiune scurtă de răzuire.

În acest ghid, am folosit unul dintre pluginurile sale de scraping și Code Interpreter. În timp ce pluginurile funcționează pe multe site-uri web standard, a doua metodă este pentru structuri personalizate de pagini web sau dacă pagina are elemente dinamice (defilare fără sfârșit, citiți mai multe etc.).

Și pentru a reitera, parcurgeți termenii site-ului subiect înainte de a răzui.

PS: Consultați aceste soluții de scraping în cloud și propriul nostru API de scraping tipstrick.ro.