Cuprins
Exemple Pandas concat()
Introducere
Pandas este o bibliotecă Python puternică și versatilă pentru manipularea și analiza datelor. Oferă o gamă largă de funcții pentru operațiuni de cadre de date, una dintre cele mai utile fiind concat()
. Această funcție permite utilizatorilor să combine sau să unească mai multe cadre de date într-o singură entitate, o operațiune esențială pentru multe sarcini de prelucrare a datelor.
Sintaxă și argumente
Sintaxa generală a funcției concat()
este următoarea:
python
pandas.concat(objs, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False)
* objs: O listă sau un dicționar de cadre de date sau serii care urmează să fie concatenate.
* ignore_index: Dacă este setat la True
, indexurile originale ale cadrelor de date vor fi ignorate și va fi creat un index nou.
* keys: O listă de etichete sau chei pentru fiecare cadru de date. Dacă este furnizat, aceste etichete vor fi utilizate ca nume de nivel în indexul rezultat.
* levels: O listă de niveluri pentru indexul rezultat. Trebuie să corespundă lungimii argumentului keys
.
* names: O listă de nume pentru indexul rezultat.
* verify_integrity: Dacă este setat la True
, funcția va verifica dacă cadrul de date rezultat este valid (adică are un index unic).
* sort: Dacă este setat la True
, cadrul de date rezultat va fi sortat în funcție de index.
Utilizări
Funcția concat()
poate fi utilizată într-o varietate de scenarii, inclusiv:
* Combinarea cadrelor de date cu structuri similare: Cadrele de date cu aceeași schemă și număr de coloane pot fi concatenate pe verticală, creând un cadru de date mai mare.
* Concatenarea cadrelor de date cu structuri diferite: Cadrele de date cu structuri diferite pot fi concatenate pe orizontală, creând un cadru de date cu un număr de coloane mai mare.
* Concatenarea cadrelor de date cu chei: Cadrele de date pot fi concatenate pe baza unor chei comune, creând un cadru de date multi-indexat.
* Eliminarea duplicatelor: Concatenarea cadrelor de date cu aceleași date, dar cu duplicate potențiale, poate fi utilizată pentru a elimina aceste duplicat.
Exemple
Exemplul 1: Concatenarea cadrelor de date cu structuri similare
Să presupunem că avem două cadre de date, df1
și df2
, cu structuri similare:
python
import pandas as pd
df1 = pd.DataFrame({'nume': ['John', 'Mary', 'Bob'], 'vârsta': [20, 25, 30]})
df2 = pd.DataFrame({'nume': ['Alice', 'Tom', 'Susan'], 'vârsta': [35, 40, 45]})
Putem concatena aceste cadre de date pe verticală utilizând concat()
:
python
df_concat = pd.concat([df1, df2])
print(df_concat)
nume vârsta
0 John 20
1 Mary 25
2 Bob 30
3 Alice 35
4 Tom 40
5 Susan 45
Exemplul 2: Concatenarea cadrelor de date cu structuri diferite
Acum, să presupunem că avem două cadre de date, df3
și df4
, cu structuri diferite:
python
df3 = pd.DataFrame({'nume': ['John', 'Mary', 'Bob'], 'vârsta': [20, 25, 30]})
df4 = pd.DataFrame({'salariu': [50000, 60000, 70000]})
Putem concatena aceste cadre de date pe orizontală utilizând concat()
:
python
df_concat = pd.concat([df3, df4], axis=1)
print(df_concat)
nume vârsta salariu
0 John 20 50000
1 Mary 25 60000
2 Bob 30 70000
Exemplul 3: Concatenarea cadrelor de date cu chei
Să presupunem că avem două cadre de date, df5
și df6
, cu o cheie comună, „department”:
python
df5 = pd.DataFrame({'nume': ['John', 'Mary', 'Bob'], 'vârsta': [20, 25, 30], 'department': 'Sales'})
df6 = pd.DataFrame({'nume': ['Alice', 'Tom', 'Susan'], 'vârsta': [35, 40, 45], 'department': 'Marketing'})
Putem concatena aceste cadre de date pe baza cheii „department” utilizând concat()
:
python
df_concat = pd.concat([df5, df6], keys=['Sales', 'Marketing'])
print(df_concat)
nume vârsta department
Sales John 20 Sales
Sales Mary 25 Sales
Sales Bob 30 Sales
Marketing Alice 35 Marketing
Marketing Tom 40 Marketing
Marketing Susan 45 Marketing
Concluzie
Funcția concat()
din Pandas este un instrument puternic și versatil pentru combinarea și unirea cadrelor de date. Flexibilitatea sa permite utilizatorilor să concateneze cadre de date cu structuri diferite și chei, făcându-l potrivit pentru o gamă largă de sarcini de prelucrare a datelor. Înțelegerea și utilizarea corectă a funcției concat()
este esențială pentru manipularea eficientă a datelor în Python.
Întrebări frecvente
1. Este funcția concat()
la fel ca merge()
?
Nu, funcția concat()
combină cadrele de date pe verticală sau orizontală, în timp ce merge()
le îmbină pe baza uneia sau mai multor coloane comune.
2. Care este diferența dintre ignore_index
și verify_integrity
?
ignore_index
ignoră indexurile originale ale cadrelor de date concatenate, în timp ce verify_integrity
verifică dacă cadrul de date rezultat are un index unic.
3. Cum pot elimina duplicatele în timpul concatenării?
Puteți utiliza argumentul verify_integrity=True
pentru a verifica integritatea cadrul de date rezultat, ceea ce va elimina duplicatele.
4. Pot concatena cadre de date cu tipuri de date diferite?
Da, Pandas va efectua conversia automată a tipului de date dacă este necesar.
5. Care este utilizarea argumentului keys
?
Argumentul keys
este utilizat pentru a seta nume de nivel pentru indexul rezultat atunci când concatenează cadre de date cu chei.
6. Cum pot sorta cadrul de date rezultat?
Puteți utiliza argumentul sort=True
pentru a sorta cadrul de date rezultat în funcție de index.
7. **Funcția concat()
poate fi utilizată pentru a concaten