26 de seturi de date deschise minunate pentru proiectele dvs. de știință a datelor/ML

Căutarea seturilor de date potrivite ar putea fi descurajantă, mai ales atunci când aveți nevoie de ele pentru proiecte de învățare automată (ML) și știința datelor. Reducem eforturile dumneavoastră de cercetare, oferind cea mai bună listă de seturi de date gratuite.

Seturile de date sunt pur și simplu colecții de date. Ar putea fi date financiare, de sănătate a comunității, date de bursă, date bancare, date geografice, date de cercetare în domeniul științei particulelor, evaluări ale produselor pe un site de comerț electronic etc.

Seturile de date conțin date colectate printr-un standard de anchetă științifică și sunt importante pentru vizualizarea ulterioară, extracția, prognoza etc. Deoarece datele sunt echivalentul petrolului brut în universul digital, seturile de date devin comerciale și rare.

Continuați să citiți pentru a afla elementele de bază despre seturile de date. Veți descoperi, de asemenea, câteva seturi de date open source care sunt cu adevărat gratuite pentru proiectele dvs. de învățare automată (ML) sau știința datelor.

Ce sunt seturile de date?

Seturile de date sunt colectarea de date într-un container structurat și organizat. De obicei, inspectorii asociază seturile de date cu un organism unic, de exemplu, World Bank Open Data.

Din nou, colectorii de date păstrează seturile de date specifice unui subiect precum Datele recensământului din 2020 din Statele Unite ale Americii, publicate de Biroul de recensământ al Statelor Unite.

Veți găsi multe seturi de date despre probleme globale și locale. Cele mai multe seturi de date conțin puncte de date interconectate. De exemplu, populația unei țări și modul în care obezitatea se raportează la diferite clase ale acestei populații.

Oamenii de știință ar putea fi nevoiți să curețe, să restructureze și să prelucreze astfel de seturi de date folosind instrumente de date mari pentru a ajunge la concluzii valoroase, cum ar fi reducerea deșeurilor de plastic prin analizarea datelor de utilizare a plasticului, remedierea problemelor forței de muncă prin analiza datelor privind salariile, instruirea inteligenței artificiale (AI) etc. pe.

Tipuri de seturi de date

În funcție de sursa seturilor de date, acestea pot fi publice sau private. Seturile de date publice sunt deschise tuturor și contribuie mult la cercetare și dezvoltare.

Din nou, seturile de date pot fi de următoarele tipuri, în funcție de informațiile conținute în ele:

  • Multivariabil: astfel de date conțin mai multe variabile.
  • Categoric: înfățișează multe categorii de oameni.
  • Numeric: astfel de seturi de date măsoară datele în numere precum vârsta, înălțimea etc.
  • Corelație: în acest tip, punctele de date sunt interconectate.
  • Bazat pe fișiere: aici, seturile de date sunt stocate în fișiere.
  • Bivariat: un set de date cu două variabile și o relație între ele.
  • Set de date web: Date colectate de la unul sau mai multe portaluri de internet similare.
  • Baza de date: astfel de seturi de date stochează date în tabele, coloane și rânduri.
  Cum se actualizează metoda de plată Vudu

Seturi de date open source pentru proiecte de știință a datelor

Seturile de date gratuite sunt combustibilul pentru a vă alimenta pasiunea pentru o carieră în știința datelor. Pentru că, dacă vă aflați în primele etape ale carierei în știința datelor, s-ar putea să doriți să vă asumați proiecte personale și non-comerciale pentru încredere în sine sau construirea portofoliului.

În primul rând, vă puteți testa cu ușurință abilitățile nou-învățate, aplicând instrumente și tehnici la problemele din lumea reală a seturilor de date.

De exemplu, există date de cercetare privind cancerul disponibile gratuit, date despre Covid-19, date de cazier judiciar FBI, date de analiză a particulelor de la CERN etc. Puteți utiliza astfel de date și puteți construi un model de știință a datelor pentru a răspunde problemelor vitale sociale, financiare și de sănătate. .

În al doilea rând, astfel de proiecte funcționează ca îmbunătățiri de portofoliu pentru cariera ta. Dacă puteți construi un model de analiză a datelor de succes care poate oferi informații utile, puteți prezenta aceste modele online prin crearea de site-uri web de portofoliu. Angajatorii preferă proiectele decât declarațiile de scop.

Seturi de date gratuite pentru proiecte de învățare automată

La fel ca un profesionist în știința datelor, un profesionist ML trebuie să lucreze și la proiecte autogestionate pentru a-și examina abilitățile. Dacă proiectul devine de succes, devine și o componentă ideală pentru portofoliul tău online sau offline de proiecte ML.

Prin urmare, puteți înțelege acum că știința datelor și creșterea ML depind de seturile de date structurate. Dacă astfel de seturi de date ar fi prea comercializate, cercetarea și dezvoltarea în domeniul științei datelor ar deveni complet centrate pe corporații.

Pentru a menține cercetarea ML în știința datelor deschisă tuturor, următoarele agenții, instituții și platforme oferă seturi de date gratuite:

Data.gov

Veți găsi toate datele deschise colectate și prelucrate de Guvernul SUA. în Data.gov. Platforma oferă, de asemenea, resurse și instrumente pentru a efectua cercetări, a proiecta vizualizări de date, a dezvolta aplicații mobile/web etc.

Seturile de date notabile includ date despre utilizarea durabilă a terenurilor, date despre locuințe rurale, hărți electronice de navigație interioare etc.

Seturi de date deschise: Kaggle

Kaggle oferă un ocean de date publice și coduri de calculator pentru proiecte de știință a datelor. Puteți selecta Seturi de date pentru date brute și Cod pentru coduri de programare. Seturile de date în tendințe pe Kaggle sunt datele AMEX, Simpsons Viewership, datele de antrenament Chatbot etc.

Segment de date: YouTube 8-M

Segmentele de date de la YouTube 8-M vă oferă adnotări de segmente verificate de auditori umani. De asemenea, puteți accesa setul de date YouTube-8M de pe același portal. Setul de date conține 6,1 milioane de ID-uri video, 350.000 de ore de videoclip, 2,6 miliarde de caracteristici audio/vizuale, 3863 de clase de videoclipuri și, în medie, 3,0 etichete per videoclip.

Registrul datelor deschise pe AWS

ROD on AWS îi ajută pe oamenii de știință de date să partajeze și să descopere seturi de date găzduite pe resursele AWS. Câteva seturi de date interesante pe care le puteți găsi aici sunt Atlasul genomului cancerului, Seturile de date Foldingathome COVID-19, Common Crawl etc.

  Cum să faci o captură de ecran pe iPad-ul tău

Depozitul de învățare automată: UCI

UCI Machine Learning Repository menține în prezent 622 de seturi de date potrivite pentru oamenii de știință de date și inginerii ML pentru a-și antrena modelele AI. De asemenea, există o interfață de căutare pentru a cerceta bazele de date. Atractii populare sunt setul de date Accelerometer, setul de date Synchronous Machine, Wikipedia Math Essentials, setul de date Turkish Headlines etc.

Seturi de date publice BigQuery: Google Cloud

Multe seturi de date publice sunt stocate pe BigQuery. Google face setul de date accesibil gratuit prin programul Google Cloud Public Dataset. Cu toate acestea, interogarea gratuită are o limită de 1 TB pe lună. Puteți efectua interogări SQL standard și SQL vechi.

Seturi de date publice minunate: GitHub

Awesome Public Datasets este un set de date open-source care conține date publice centrate pe subiecte. Colectat și sortat de pe diverse bloguri, răspunsuri și feedback de la utilizatori, combină seturi de date gratuite și plătite despre fizică, sport, software, limbaj natural și învățarea automată.

Datele Băncii Mondiale

World Bank Open Data este platforma prin care aveți acces gratuit la datele de dezvoltare globale. De asemenea, oferă și alte resurse valoroase, cum ar fi tabele și rapoarte preformatate. Puteți naviga cu ușurință după țară sau indicator pentru a obține setul de date necesar.

FiveThirtyEight: Date

FiveThirtyEight este un site web american care se ocupă de analiza sondajelor de opinie, politică, economie și sport. Puteți accesa aceste sondaje și prognoze prin seturi de date de pe platforma sa. Puteți descărca seturile de date cu un singur clic.

ImageNet

ImageNet este o bază de date de imagini din care cercetătorii din întreaga lume pot obține seturi de date open source pentru proiectele lor necomerciale. Aici, imaginile sunt organizate pe baza ierarhiei WordNet. Proiectul joacă un rol vital în cercetarea de deep learning la nivel avansat.

Seturi de date Arhive: UNICEF DATA

Folosind Arhivele de seturi de date, puteți obține seturi de date colectate de UNICEF în întreaga lume. Datele despre migrație, strămutare, dietă, conectivitate, educație, sănătate, învățare, mortalitate, violență, dezvoltarea copilăriei, căsătoria copiilor, munca copiilor și diverse statistici sunt disponibile aici.

Găsiți date deschise: Govt. din Marea Britanie

Dacă proiectul dvs. are nevoie de date publicate de organismele locale și de guvernul central al Regatului Unit, Find Open Data este portalul pe care ar trebui să-l consultați. Acoperă cheltuielile guvernamentale, afaceri, sănătate, educație, apărare și mai multe seturi de date.

Date: Biroul de recensământ al Statelor Unite

Aveți nevoie de date de la recensământul SUA pentru un proiect relevant? Puteți primi asistență de la USCB Data. Aici puteți explora datele, tabele, hărțile și profilurile de date ale recensământului din 2020 în timp ce vizualizați datele și utilizați instrumente de date.

Date și statistici: CDC

Agenția federală din Statele Unite ale Americii Centers for Disease Control and Prevention oferă, de asemenea, seturi de date gratuite publicului pentru a accesa date și statistici de pe acest portal. Subiectele setului de date sunt sănătatea mediului, boli cronice, nașteri și naștere, decese și mortalitate, speranță de viață, răni și violență, sănătatea reproducerii, boli cu notificare națională etc.

Seturi de date: MIT

Acest set de date se concentrează pe datele de vibrație induse de vortex. Centrul de inginerie oceanică de la MIT găzduiește câteva seturi de date disponibile public pentru compararea codului computerizat. Seturile de date sunt deschise tuturor pentru a invita noi teorii din date și pentru a sincroniza cercetătorii care lucrează în același domeniu.

  Care este IMEI-ul telefonului meu? Iată ce trebuie să știți

Catalogul de date al Băncii Mondiale

Catalogul de date colectează seturi de date gratuite care fac ca datele Băncii Mondiale legate de dezvoltare să fie ușor accesibile. Folosirea acestuia în diverse proiecte este ușoară, deoarece puteți găsi și descărca fără efort informațiile preferate. Conține peste 5000 de seturi de date care acoperă microdatele, finanțele și platformele energetice ale Băncii Mondiale.

Date NASA Space Science

NASA oferă acces la datele sale de arhivă din Arhiva coordonată de date științifice spațiale. Această platformă este de mare ajutor pentru publicul larg, în special pentru persoanele care lucrează în educație și cercetare spațială. Are 400 TB de date digitale care conțin informații despre 550 de științe spațiale.

Obțineți datele: în interiorul Airbnb

Airbnb este o piață online renumită la nivel mondial pentru gazde și închirieri de vacanță. De asemenea, oferă colectare de date pentru diferite orașe din întreaga lume din Get the Data. Puteți naviga prin oraș pentru a obține rapid datele. În plus, puteți solicita datele necesare și puteți citi ipotezele de date pe acest portal.

Date web: recenzii Amazon

Cei interesați de studii de piață și recenzii ale produselor ar trebui să utilizeze seturile de date furnizate de Snap Web Data. Conține peste 34 de milioane de recenzii ale utilizatorilor pe Amazon, din iunie 1995 până în martie 2013. Setul de date conține text simplu, informații despre produs, nume de utilizator, evaluări și o recenzie.

Date FMI

Portalul de date FMI este valoros pentru toate tipurile de date economice și financiare. Indiferent dacă căutați date financiare ale FMI, statistici din sectorul extern, publicații emblematice sau date de microeconomie, aici le puteți găsi. În plus, puteți folosi un filtru pentru a obține date la nivel de țară.

Google Cărți Ngrams

Dacă lucrați la părți de vorbire și limbaj, Google Books Ngrams vă poate ajuta în mod semnificativ. Acest set de date open-source vă oferă o idee despre utilizarea unui anumit cuvânt și expresie de-a lungul istoriei sau a unui interval de timp specific. Sursa acestui set de date sunt documentele digitale indexate de Google.

Date despre piețe: The Financial Times

Dacă doriți să puneți mâna pe date fiabile și precise ale pieței globale și regionale, Markets Data de la Financial Times este aici pentru a vă ajuta. Vă permite să lucrați cu date de piață din America, Asia-Pacific, Europa, Africa și piața globală.

Earthdata: NASA

NASA oferă acces complet și deschis la datele sale științifice prin programul Earth Data, care vă ajută să înțelegeți planeta noastră natală și să faceți proiecte cu ea. Puteți găsi seturi de date gratuite despre atmosferă, biosferă, criosferă, dimensiuni umane, suprafață terestră, ocean, pământ solid, interacțiune soare-pământ și hidrosferă terestră.

Căutare set de date: Google

Dacă sunteți student, cercetător sau cercetător de date care căutați seturi de date pentru a vă sprijini proiectul, puteți primi asistență de la portalul de căutare a seturilor de date. Îl puteți numi un motor de căutare pentru seturi de date, deoarece vă permite să descoperiți seturi de date găzduite în diferite rapoarte de pe web prin căutarea prin cuvinte cheie.

Date deschise: CERN

Organizația europeană de cercetare CERN are un portal de date deschise pe care îl puteți utiliza pentru a accesa datele generate de cercetare la CERN. Acest portal de set de date conține doi petabytes de date legate de fizica particulelor. Mai mult, vine cu aplicații și documentație necesare pentru analiza datelor.

Crime Data Explorer: FBI

Crime Data Explorer (CDE) este setul de date open-source de la FBI, care își propune să ofere acces mai ușor la partajarea datelor penale, non-criminale și de aplicare a legii. Pe lângă faptul că vă permite să descoperiți datele necesare prin vizualizare și filtrare pe categorii, această platformă vă permite să descărcați date în format CSV.

Cuvinte finale

Până acum, ați trecut printr-o listă cu adevărat exhaustivă de seturi de date de înaltă calitate. Articolul prezintă date din diverse nișe precum știința fizică, dosarele medicale, cercetarea spațială, cazierele judiciare, evaluările produselor etc.

În funcție de proiectul de știință a datelor sau de învățare automată pe care îl faci, poți alege. Aproape toate seturile de date au, de asemenea, instrucțiuni adecvate pentru a vă ajuta cu proiectul dvs.

Ați putea fi, de asemenea, interesat de aceste resurse pentru a învăța știința datelor și ML.