Blog

Data Analysis

Ce trebuie să știi despre actualizarea majoră Pandas 2.0

În 2023, lansarea Pandas 2.0. a marcat o nouă eră în analiza datelor, aducând îmbunătățiri semnificative și transformând modul în care profesioniștii lucrează cu datele. Integrarea cu Apache Arrow a revoluționat gestionarea datelor, permițând lucrul mai rapid și mai eficient cu seturi mari și complexe. Această schimbare fundamentală a depășit multe dintre limitările anterioare ale Pandas, oferind un suport mai bun pentru diverse tipuri de date și o gestionare internă mai inteligentă a memoriei.

Acum, în 2024, este evident că Pandas 2.0. nu doar că și-a îndeplinit promisiunile, ci a și redefinit standardele pentru manipularea datelor. Beneficiile pentru cei care au adoptat această versiune sunt clare: performanțe îmbunătățite, capacitatea de a gestiona date masive cu ușurință și un set de instrumente care fac din fiecare interacțiune cu datele o experiență mai plăcută și mai productivă.

Dacă îți dorești să înțelegi de ce Pandas 2.0. a devenit un aliat indispensabil pentru profesioniștii din domeniul datelor – te invităm să rămâi alături de noi!

Ce noutăți aduce Pandas 2.0?

Pandas 2.0. a adus o serie de noutăți importante:

Performanță îmbunătățită:

  • Integrarea cu PyArrow: Permite lucrul cu seturi de date mai mari și îmbunătățește viteza de încărcare și procesare.
  • Rezoluție datetime non-nanosecond: Îmbunătățește performanța și eficiența în lucrul cu date calendaristice.

API-uri noi și actualizate:

  • Suport pentru tipuri de date nullable: Permite lucrul cu date care pot fi nule sau absente.
  • Îmbunătățiri ale API-ului de grupare: Facilitează operațiunile de agregare și transformare a datelor.

Deprecieri și eliminări:

  • Eliminarea funcției „infer_objects”: Înlocuită cu metode mai eficiente.
  • Deprecieri ale funcțiilor „eval” și „query”: Se recomandă utilizarea alternativelor mai performante.
  • Eliminarea suportului pentru Python 3.6 și versiuni anterioare: Necesită Python 3.7 sau mai recent.

Pandas 2.0. vs Pandas 1.3

CaracteristicăPandas 2.0Pandas 1.3
VitezăMult mai rapidMai lent
Date lipsăGestionează bineProbleme
FuncțiiUnele funcții noi, altele eliminateFuncții vechi, unele eliminate
PythonNecesită versiunea 3.7 sau mai nouăMerge și cu versiuni mai vechi
MemorieFolosește memoria mai eficientConsumă multă memorie
StabilitateMai stabilMai multe erori posibile

Cum să instalezi și să actualizezi Pandas 2.0?

Cerințe de sistem

Înainte de a instala Pandas 2.0, trebuie să te că sistemul tău îndeplinește cerințele minime de operare. Pentru a instala Pandas 2.0, ai nevoie de următoarele:

  • Python 3.7 sau o versiune mai recentă
  • NumPy 1.17.3 sau o versiune mai recentă
  • setuptools 41.2.0.sau o versiune mai recentă

Ghid de instalare

Există mai multe modalități de a instala Pandas 2.0, dar cea mai ușoară și recomandată metodă este prin intermediul distribuției Anaconda. 

Iată pașii pe care trebuie să-i urmezi pentru instalarea Pandas 2.0. prin intermediul Anaconda:

  1. Descarcă și instalează Anaconda de pe site-ul oficial.
  2. Deschide terminalul sau promptul de comandă și introdu următoarea comandă pentru a instala Pandas 2.0: conda install pandas=2.0.
  3. Așteaptă ca instalarea să se finalizeze și verifică dacă Pandas 2.0. este instalat corect prin intermediul comenzii import pandas as pd și apoi pd.__version__. Versiunea afișată ar trebui să fie 2.0.

Dacă dorești să actualizezi platforma, poți utiliza aceeași comandă de instalare descrisă mai sus. În cazul în care ai deja o versiune mai veche de Pandas instalată, folosește comanda conda update pandas pentru a actualiza la cea mai recentă versiune disponibilă.

În cazul în care nu utilizezi distribuția Anaconda, poți instala Pandas 2.0. utilizând pip sau din repository-ul oficial PyPI. Poți găsi mai multe informații despre aceste metode de instalare pe site-ul oficial Pandas.

Structuri de date fundamentale – Pandas 2.0. 

Pandas oferă două structuri de date puternice și flexibile pentru analiza și manipularea datelor:

1. DataFrame-uri

Gândește-te la un DataFrame ca la o foaie de calcul Excel, dar mult mai puternică. Are rânduri și coloane, la fel ca un tabel, și poți pune în el tot felul de informații: numere, text, date calendaristice, etc. Fiecare coloană e ca o categorie separată (de exemplu, „Nume”, „Vârstă”, „Oraș”).

Pandas îți permite să aduci date în DataFrame din mai multe locuri:

  • Fișiere CSV: Acestea sunt fișiere text simple unde datele sunt separate prin virgulă (de exemplu, „Andreea,23,București”).
  • Fișiere Excel: Dacă ai datele într-un tabel Excel, le poți importa direct.
  • Baze de date: Poți extrage date din baze de date precum MySQL sau PostgreSQL.

Pentru a crea un DataFrame în Python, folosești funcția pd.DataFrame(). Ai mai multe opțiuni:

  • Listă de dicționare: Fiecare dicționar reprezintă un rând în tabel, iar cheile dicționarului devin numele coloanelor.
  • Dicționar de liste: Fiecare listă reprezintă o coloană în tabel, iar cheile dicționarului devin numele coloanelor.
  • Fișier CSV: Pandas v 2.0.citește direct fișierul și creează DataFrame-ul.

2. Seriile de timp

O serie de timp este ca un șir de date ordonate în timp, de exemplu, prețurile unei acțiuni în fiecare zi sau temperatura înregistrată la fiecare oră. În Pandas, o serie de timp este o structură specială care ține evidența acestor date și a momentelor în care au fost înregistrate.

Poți crea o serie de timp în noua actualizare Pandas folosind funcția pd.date_range(). Aceasta generează o secvență de date (de exemplu, zile, ore, minute) pe care o poți folosi apoi pentru a crea seria de timp.

Manipularea datelor

În Pandas, manipularea datelor este ușoară și eficientă. De ce? Pentru că această bibliotecă Python oferă manipulare și date operații pentru tabele numerice și serii de timp. 

panda s

Mai jos ți-am pregătit cele trei aspecte principale ale manipulării datelor în Pandas: 

1. Curățarea datelor

Acest proces implică eliminarea datelor incomplete sau incorecte și transformarea datelor într-un format adecvat pentru analiză. Librăria Python v 2.0.oferă o serie de funcții pentru curățarea datelor, inclusiv funcții pentru eliminarea valorilor lipsă, eliminarea duplicatelor și transformarea datelor într-un format uniform.

Funcții Pandas 2.0:

  • Eliminarea valorilor lipsă (df.dropna(), df.fillna())
  • Eliminarea duplicatelor (df.drop_duplicates())
  • Transformarea datelor într-un format uniform (conversia tipurilor de date, standardizare), cu performanță îmbunătățită datorită PyArrow.

2. Transformarea datelor

Pandas oferă o serie de funcții pentru transformarea datelor, inclusiv funcții pentru adăugarea de coloane, eliminarea de coloane și transformarea datelor într-un format diferit.

Funcții Pandas 2.0:

  • Adăugarea de noi coloane (df[‘coloana_noua’] = …)
  • Eliminarea de coloane inutile (df.drop(columns=[‘coloana’]))
  • Transformarea datelor (aplicarea funcțiilor, normalizare), cu posibilitatea de a utiliza funcții PyArrow pentru operațiuni mai rapide.

3. Agregarea și gruparea datelor

Agregarea și gruparea datelor include gruparea datelor în funcție de anumite criterii, cum ar fi o anumită coloană sau o anumită valoare, și apoi realizarea de calcule pe grupurile de date rezultate.

Funcții Pandas 2.0:

  • Gruparea datelor (df.groupby()) cu performanță îmbunătățită datorită PyArrow.
  • Realizarea de calcule pe grupurile de date (medie, sumă, numărare), cu posibilitatea de a utiliza funcții PyArrow pentru operațiuni mai rapide.

Vizualizare și explorare

pandas 2.0 it

Crearea graficelor în Pandas 2.0

Una dintre cele mai puternice caracteristici ale Pandas 2.0. este capacitatea sa de a crea grafice și vizualizări complexe. Biblioteca oferă o gamă largă de opțiuni de vizualizare, inclusiv diagrame cu bare, diagrame circulare, diagrame de linie și multe altele. Pentru a crea un grafic, trebuie să utilizezi funcția .plot() și să specifici tipul de grafic pe care dorești să îl creezi.

De exemplu, dacă doriți să creezi un grafic cu bare care să arate numărul de vânzări pentru fiecare luna, poți folosi următorul cod:

import pandas as pd

data = {‘Luna’: [‘Ianuarie’, ‘Februarie’, ‘Martie’, ‘Aprilie’, ‘Mai’, ‘Iunie’],

        ‘Vanzari’: [1000, 1200, 800, 1500, 900, 1100]}

df = pd.DataFrame(data)

df.plot(kind=’bar’, x=’Luna’, y=’Vanzari’)

Analiza exploratorie în Pandas 2.0

Noua versiune oferă o gamă largă de instrumente pentru analiza exploratorie a datelor, permițând explorarea datelor și identificarea modelelor și tendințelor.

Unele dintre acestea includ:

  • Funcția .describe(): Afișează statistici descriptive pentru fiecare coloană dintr-un DataFrame.
  • Funcția .corr(): Calculează coeficientul de corelație între două coloane.
  • Funcția .groupby(): Permite gruparea datelor după o anumită coloană și aplicarea unei funcții de agregare.

Pentru a utiliza aceste funcții, accesează DataFrame-ul și apelează funcția corespunzătoare.

Acestea fiind spuse, Pandas 2.0 marchează un pas semnificativ înainte, redefinind modul în care datele sunt manipulate și analizate. Dacă dorești să rămâi la vârful inovației în analiza de date, adoptarea acestei versiuni este imperativă.

Pentru a explora mai detaliat aceste noutăți și pentru a-ți îmbunătăți abilitățile în analiza de date, te invităm să te alături cursului de Data Analyst. De ce? Pentru că este conceput pentru a te ajuta să stăpânești tool-uri de Data Analysis și să înțelegi cum să le folosești în proiecte reale de analiză de date.

În cadrul cursului nostru, vei învăța:

  • Să manipulezi și să curăți datele eficient.
  • Tehnici avansate de grupare și agregare a datelor.
  • Cum să creezi vizualizări de date relevante și insightful.
  • Să folosești tool-uri AI pentru data analysis.
  • Și multe altele.

Înscrie-te acum și începe călătoria ta spre excelență în analiza de date!

Află detalii despre cursurile noastre
Completează câmpurile de mai jos și te vom contacta în următoarele 24 de ore

    Te așteptăm la NewTech Academy