Python ist heute die am häufigsten verwendete Programmiersprache der Welt, und eine Verwendung von Python ist die Analyse von Daten. Das Pandas-Paket ist eine der beliebtesten Datenanalysebibliotheken und bietet leistungsstarke, benutzerfreundliche Datenstrukturen und Datenanalysetools. In diesem Artikel besprechen wir die Pandas-Bibliothek mit einem Überblick über einige der nützlichen Funktionen, die Pandas bisher hat, oder Sie können sagen, dass dies ein Pandas-Spickzettel ist. Wir werden einige Beispiele verwenden, um dem Leser zu zeigen, wie eine grundlegende Datenanalyse innerhalb weniger Zeilen Python-Code durchgeführt werden kann.

Kurze Einführung über Pandas:

  • Es ist eine Python-Bibliothek zur Datenmanipulation und -analyse.
  • Es ist Open Source, frei verfügbar und plattformübergreifend.
  • Stellt Datenstrukturen und Operationen zum Bearbeiten numerischer Tabellen und zu analysierender Zeitreihen bereit.
  • Es ermöglicht dem Benutzer, Operationen an den in den Tabellen gespeicherten Daten durchzuführen, wie Filtern, Sortieren, Gruppieren, Zusammenführen usw.

So verwenden Sie die Pandas-Bibliothek:

die Voraussetzung

  1. Um Pandas verwenden zu können, benötigen Sie die Python-Version 3.5 und höher. Sie können Python einfach in Ihrem System installieren, indem Sie zu https://www.python.org/downloads/ gehen, die Software herunterladen und installieren.
  2. Manchmal sind Pandas auch von einer anderen Bibliothek wie NumPy und vielen anderen abhängig. Sie können NumPy mit dem folgenden Befehl in Ihrer Eingabeaufforderung oder Ihrem Terminal installieren.
    pip3 install numpy
  1. Jetzt können Sie Pandas in Ihrem System installieren, indem Sie den folgenden Befehl in Ihrer Eingabeaufforderung oder Ihrem Terminal verwenden.
    pip3 install pandas
  1. Außerdem gibt es eine andere Software namens Jupyter Notebook, die wir mit der Pandas-Bibliothek in unserem Python-Projekt verwenden müssen. Sie macht den Prozess der Verwendung von Pandas viel effizienter.

Jupyter-Notebook: Jupyter-Notebook ist eine webbasierte interaktive Computerplattform. Es handelt sich um Open-Source-Software, die mit der Programmiersprache Python ausgeführt wird. Jupyter Notebook wird häufig von Datenwissenschaftlern und anderen technischen Benutzern verwendet, die ihre Arbeit teilen möchten, da es die Möglichkeit bietet, Dokumente zu erstellen und zu teilen, die Rich-Text, Code, Mathematik, Diagramme und andere Arten von Kommentaren enthalten. Sie können das Jupyter-Notebook mit dem folgenden Befehl in Ihrem Terminal installieren.

pip install jupyter notebook

Für den Zugriff auf das Notebook können Sie diesen Befehl verwenden.

jupyter notebook

Konfiguration

Importieren der Pandas- und NumPy-Bibliothek

import pandas as pd
import numpy as p

Pandas-Datenstruktur

Serien erstellen:

Eine Serie in Pandas ist genau wie jede andere Serie, auf die Sie in Ihrem täglichen Geschäft gestoßen sind. Dies ist ein eindimensionales beschriftetes Array, das jeden Datentyp enthalten kann.

series = pd.Series([2, -8, 3, 9],  index=['w',  'x',  'y',  'z'])

Erstellen von Datenrahmen:

Ein Datenrahmen in der Pandas-Bibliothek ist eine zweidimensionale beschriftete Datenstruktur, in der jede Zeile eine Beobachtung darstellt.

df = pd.DataFrame(
        {"words" : ['good' ,'better', 'best'],
          "number" : [22, 33, 44],
          "names" : ['one' ,'two', 'three']},        index = [1, 2, 3])

Daten in Pandas lesen:

Verwenden Sie zum Lesen der CSV-Datei die Funktion pd.read_csv:

pd.read_csv('files.csv')

Um die ersten beiden Zeilen zu sehen, können Sie Folgendes verwenden:

df.head(2)

Um die Zeilen zwischen bestimmten Indizes anzuzeigen

df[3:5]

Um die letzten beiden Zeilen zu sehen, können Sie Folgendes verwenden:

df.tail(2)

So zeigen Sie die Analyse numerischer Spalten an:

df.describe()

Um nur Spalten zu sehen:

df.columns

So sehen Sie bestimmte Spalten:

df['Name']

Anstelle des Namens können Sie beliebige Namen der Spalten verwenden, die die CSV-Datei enthält

So sehen Sie mehr als zwei Spalten gleichzeitig:

df[['Name', 'HP']]

So sehen Sie eine bestimmte Anzahl von Namen:

df['Name'][5:0]

Sie können anstelle von 5 eine beliebige Zahl hinzufügen, um die spezifische Anzahl von Namen zu erhalten

So erhalten Sie die bestimmte Zeile:

df.iloc[2]

Sie können 2 durch eine beliebige Anzahl von Zeilen ersetzen.

So erhalten Sie gleichzeitig mehrere Zeilen von Datenrahmen:

df.iloc[2]

Abrufen des spezifischen Werts aus der CSV-Datei

df.iloc[5,1]

Sie können die pandas iloc-Funktion verwenden, um bestimmte Werte aus einer CSV-Datei basierend auf ihrer Zeilen- und Spaltenposition abzurufen.

So erhalten Sie alle Informationen zu den Daten:

df.info()

Exportieren des Datenrahmens in CSV-Dateien.

Daten in eine Excel-Datei exportieren

Um die Daten in eine Excel-Datei zu exportieren, benötigen wir eine einfache Funktion namens to_excel.

df.to_excel('file.xlsx')

Daten in eine Textdatei exportieren

Um die Daten in eine Textdatei zu exportieren, benötigen wir eine einfache Funktion namens to_csv.

df.to_csv('file.txt')

Daten in eine CSV-Datei exportieren

Um die Daten in eine CSV-Datei zu exportieren, benötigen wir eine einfache Funktion namens to_csv.

df.to_csv('file.csv')

Nachdem Sie das Python-Skript ausgeführt haben, befindet sich die Datei file.csv im Stammverzeichnis des Projekts. Wenn Sie die Indexnummern nicht einschließen möchten, verwenden Sie einfach:

df.to_csv('files.csv' , index=False)

Daten sortieren

Nach alphabetischer Bezeichnung aufsteigend sortieren:

df.sort_values(['Type 1'], ascending=False)

Wenn Sie Daten in absteigender Form anzeigen möchten, verwenden Sie true

Sortieren nach alphabetischem Namen mit zwei Werten:

df.sort_values(['Type 1', 'HP'], ascending=[1,0])

Änderungen an den Daten vornehmen

Hinzufügen einer neuen Spalte zu einem Datenrahmen

df['total'] = 0

Hinzufügen einer neuen Spalte mit dem kombinierten Wert anderer Daten

df['Total'] = df['HP'] + df['Defense'] + df['Attack'] + df['Sp. Atk'] + df['Sp. Def'] + df['Speed']

Sie können auswählen, welche Spalten Sie hinzufügen möchten

So verschieben Sie die Position der Spalte:

df = df[cols[0:4] + [cols[-1]]+cols[4:12]]

Fügen Sie Rang zu einem bestimmten Wert hinzu

df.rank()

Bedingte Änderungen in Daten

Zum Ändern des spezifischen Werts:

df.loc[df['Type 1'] == 'Rock', 'Type 1' ] = 'Fire'

Filtern von Daten

Zeilen mit übereinstimmenden Indexwerten:

df.loc[df['Type 1'] =='Grass']

Um mehrere Zeilen mit übereinstimmenden Indexwerten zu erhalten:

df.loc[(df['Type 2'] == 'Ghost') | (df['Type 2'] == 'Dark')]

Um eine Spalte mit weniger oder mehr als angegebener Nummer zu erhalten:

df.loc[df['HP'] > 150]

Wir können den neuen Filterdatenrahmen auch speichern, indem wir eine neue Variable erstellen und sie exportieren, sodass Sie Ihr Wort überprüfen und jederzeit auf diesen Datenrahmen zugreifen können.

new_df = df.loc[df['HP'] > 150]
new_df.to_csv('new_file.csv')

Zum Zurücksetzen des Index:

#for reseting the index
new_df.reset_index(drop=True, inplace=True)

Zum Filtern des Werts mit bestimmten Wörtern:

df.loc[~df['Name'].str.contains('Mega')]

Sie können in der Ausgabe sehen, dass jeder Name Mega enthält, wenn Sie alle Namen mit Mega löschen möchten, verwenden Sie ein fast Gleichheitszeichen:

df.loc[~df['Name'].str.contains('Mega')]

Aggregierte Statistiken

Zählen der Anzahl der Datensätze für jeden eindeutigen Wert in einer Spalte:

df['count'] = 1
df.groupby('Type 2').count()['count']

Einige andere nützliche Funktionen


#get number of rows and columns from a data frame
df.shape

#get all the columns of the data frame
df.columns

#get all index values of the data frame
df.index

#get min max index value
df.min()
df.max()

#get min max index value
df.idxmin()
df.idxmax()

#get sum of vlaues
df.sum()

#substract and add in all the values with a specific number
s.sub(2)
s.add(2)

#Multiply and Divide all the values with a specific number
s.mul(2)
s.div(2)

Hier sind einige nützliche Tutorials, die Sie lesen können: