Descoperă tot ce este esențial despre analiza exploratorie a datelor, un demers fundamental în identificarea tendințelor și a structurilor ascunse, precum și în sintetizarea seturilor de date prin intermediul rezumatelor statistice și a reprezentărilor grafice.
Așa cum orice proiect amplu, un demers în știința datelor este un proces complex care necesită timp, o organizare meticuloasă și o aderență riguroasă la o serie de etape. Analiza exploratorie a datelor (EDA) se distinge ca una dintre cele mai cruciale faze ale acestui parcurs.
În acest context, articolul nostru își propune să elucideze conceptul de analiză exploratorie a datelor, oferind o perspectivă succintă asupra modului în care aceasta poate fi realizată cu ajutorul limbajului R.
Ce reprezintă analiza exploratorie a datelor?
Analiza exploratorie a datelor se concentrează pe evaluarea și investigarea trăsăturilor unui set de date, premergător utilizării acestuia într-o aplicație, indiferent dacă aceasta este orientată spre mediul de afaceri, statistici sau învățare automată.
Această sinteză a naturii informațiilor și a caracteristicilor sale definitorii se realizează, de obicei, prin instrumente vizuale, precum grafice și tabele. Această practică este esențială pentru a estima potențialul datelor, care vor fi supuse unui tratament mai avansat în etapele ulterioare.
Astfel, EDA facilitează:
- Formularea de ipoteze privind utilizarea informațiilor;
- Descoperirea detaliilor ascunse în structura datelor;
- Identificarea valorilor lipsă, a valorilor aberante sau a comportamentelor neobișnuite;
- Detectarea tendințelor și a variabilelor relevante;
- Eliminarea variabilelor inutile sau a celor corelate;
- Stabilirea modelării formale adecvate.
Care este distincția dintre analiza descriptivă și analiza exploratorie a datelor?
Analiza datelor se ramifică în două abordări principale: analiza descriptivă și analiza exploratorie a datelor. Deși cele două se completează reciproc, ele servesc scopuri diferite.
Analiza descriptivă se axează pe caracterizarea comportamentului variabilelor, utilizând indicatori precum media, mediana, modul etc.
Pe de altă parte, analiza exploratorie se concentrează pe identificarea relațiilor dintre variabile, pe extragerea de concluzii preliminare și pe orientarea modelării către paradigme comune de învățare automată, cum ar fi clasificarea, regresia și gruparea.
Ambele analize pot folosi reprezentări grafice, dar numai analiza exploratorie urmărește să genereze perspective acționabile, care să impulsioneze deciziile.
În concluzie, în timp ce analiza exploratorie a datelor are rolul de a soluționa probleme și de a oferi direcții pentru modelare, analiza descriptivă se limitează la a oferi o descriere amănunțită a setului de date analizat.
Analiză descriptivă | Analiza exploratorie a datelor |
Analizează comportamentul | Analizează comportamentul și relația |
Oferă un rezumat | Conduce la specificații și acțiuni |
Organizează datele în tabele și grafice | Organizează datele în tabele și grafice |
Nu are putere explicativă semnificativă | Are o putere explicativă semnificativă |
Exemple practice de utilizare a EDA
#1. Marketing digital
Marketingul digital a evoluat, transformându-se dintr-un proces creativ într-unul axat pe date. Organizațiile de marketing utilizează analiza exploratorie a datelor pentru a evalua performanța campaniilor, pentru a gestiona investițiile și pentru a direcționa deciziile legate de publicul țintă.
Prin intermediul studiilor demografice, al segmentării clienților și al altor tehnici, agenții de marketing analizează volume mari de date despre achiziții, sondaje și paneluri de consumatori, cu scopul de a înțelege și de a adapta strategiile de marketing.
Analiza exploratorie web permite specialiștilor în marketing să colecteze date detaliate despre interacțiunile utilizatorilor pe site-uri web. Un instrument popular și gratuit în acest sens este Google Analytics.
Printre tehnicile exploratorii utilizate frecvent în marketing se numără modelarea mixului de marketing, analiza prețurilor și a promovărilor, optimizarea vânzărilor și analiza exploratorie a clienților, inclusiv segmentarea.
#2. Analiza exploratorie a portofoliului
Analiza exploratorie a portofoliului este o aplicație des întâlnită a EDA. O instituție financiară sau o agenție de creditare gestionează un portofoliu divers de conturi, variind în valoare și risc.
Conturile diferă în funcție de factori precum statutul social al titularului, locația geografică, activele nete și alți parametri. Instituția trebuie să echilibreze profitabilitatea împrumuturilor cu riscul de neplată pentru fiecare împrumut în parte, necesitând o evaluare holistică a portofoliului.
De exemplu, împrumuturile cu cel mai mic risc pot fi acordate persoanelor cu venituri foarte mari, dar numărul acestora este limitat. Pe de altă parte, împrumuturile acordate persoanelor cu venituri mici prezintă un risc mai mare.
Analiza exploratorie a datelor, combinată cu analiza seriilor temporale, poate ajuta la determinarea momentului și a condițiilor optime pentru acordarea de împrumuturi diferitelor categorii de debitori, precum și la stabilirea ratelor dobânzilor, astfel încât să acopere pierderile.
#3. Analiza exploratorie a riscurilor
Modelele predictive utilizate în sectorul bancar sunt concepute pentru a evalua riscul asociat clienților. Scorul de credit, un indicator al comportamentului de neplată, este folosit pe scară largă pentru a evalua solvabilitatea solicitanților.
Analiza riscului este aplicată și în domeniul științific și în industria asigurărilor. De asemenea, este folosită în instituțiile financiare, inclusiv companiile de procesare a plăților online, pentru a detecta tranzacțiile frauduloase.
Aceste instituții analizează istoricul tranzacțiilor clienților. De exemplu, în cazul achizițiilor cu cardul de credit, o creștere bruscă a volumului tranzacțiilor declanșează un apel de confirmare către client, reducând astfel pierderile.
Analiza exploratorie a datelor cu R
Pentru a începe analiza EDA în R, este necesar să descărcați R base și R Studio (IDE), urmate de instalarea și activarea următoarelor pachete:
# Instalarea pachetelor install.packages("dplyr") install.packages("ggplot2") install.packages("magrittr") install.packages("tsibble") install.packages("forecast") install.packages("skimr") # Încărcarea pachetelor library(dplyr) library(ggplot2) library(magrittr) library(tsibble) library(forecast) library(skimr)
Pentru acest tutorial, vom folosi un set de date economice inclus în R, care conține date anuale despre indicatorii economici ai SUA. Vom redenumi acest set în „econ” pentru simplitate:
econ <- ggplot2::economics
Pentru analiza descriptivă, vom utiliza pachetul skimr, care prezintă statisticile într-un format concis și ușor de înțeles:
# Analiza descriptivă skimr::skim(econ)
Alternativ, funcția summary() poate fi folosită pentru analiza descriptivă:
Analiza descriptivă indică 547 de rânduri și 6 coloane în setul de date. Valoarea minimă este înregistrată la 1967-07-01, iar cea maximă la 2015-04-01. De asemenea, sunt prezentate media și abaterea standard.
Având o idee generală despre setul de date econ, vom crea o histogramă a variabilei „uempmed” pentru o analiză mai detaliată:
# Histograma șomajului econ %>% ggplot2::ggplot() + ggplot2::aes(x = uempmed) + ggplot2::geom_histogram() + labs(x = "Șomaj", title = "Rata lunară a șomajului în SUA între 1967 și 2015")
Distribuția histogramei indică o asimetrie spre dreapta, sugerând existența unor valori „extreme”. Se ridică întrebarea: Când au fost înregistrate aceste valori și care este tendința variabilei?
O modalitate directă de a examina tendința unei variabile este utilizarea unui grafic liniar. Mai jos vom genera un astfel de grafic, adăugând și o linie de netezire:
# Graficul liniar al șomajului econ %>% ggplot2::autoplot(uempmed) + ggplot2::geom_smooth()
Graficul indică o creștere a șomajului în perioada recentă, în special în jurul anului 2010, depășind valorile înregistrate în deceniile anterioare.
Un alt aspect important, mai ales în contextul modelării econometrice, este staționaritatea seriei, adică dacă media și varianța sunt constante în timp.
Atunci când aceste ipoteze nu sunt valabile, seria are o rădăcină unitară (este nestaționară), iar șocurile variabilei au un efect permanent.
Acesta pare a fi cazul duratei șomajului. Am observat că fluctuațiile variabilei s-au modificat semnificativ, având implicații în teoriile economice. Dar, cum putem verifica practic staționaritatea unei variabile?
Pachetul „forecast” oferă o funcție utilă care aplică teste precum ADF, KPSS și altele, indicând numărul de diferențieri necesare pentru a face seria staționară:
# Utilizarea testului ADF pentru verificarea staționarității forecast::ndiffs( x = econ$uempmed, test = "adf")
Valoarea p mai mare de 0.05 indică faptul că datele nu sunt staționare.
Un alt aspect important în analiza seriilor temporale este identificarea corelațiilor (relația liniară) dintre valorile întârziate ale seriei. Corelogramele ACF și PACF sunt utile în acest sens.
Deoarece seria nu prezintă sezonalitate, dar are o anumită tendință, autocorelațiile inițiale tind să fie mari și pozitive, deoarece observațiile apropiate în timp au valori similare.
Astfel, funcția de autocorelare (ACF) a unei serii de timp cu tendință tinde să aibă valori pozitive care scad treptat pe măsură ce întârzierile cresc.
# Reziduurile șomajului checkresiduals(econ$uempmed) pacf(econ$uempmed)
Concluzie
Când avem de-a face cu date mai mult sau mai puțin curate, suntem tentați să începem imediat modelarea pentru a obține rezultate inițiale. Cu toate acestea, este esențial să începem cu o analiză exploratorie a datelor, care este simplă, dar oferă informații valoroase despre date.
De asemenea, puteți explora unele dintre cele mai bune resurse pentru a învăța statistica pentru Data Science.