In diesem Blogbeitrag stellen wir eine Bibliothek für maschinelles Lernen in Python vor, die dabl heißt und für Data Analysis Baseline Library steht. Sie ermöglicht es Ihnen, eine schnelle explorative Datenanalyse durchzuführen und gleichzeitig sehr schnell Machine-Learning-Modelle zu erstellen. Wenn Sie also das Pandas-Profiling mögen, werden Sie dabl auch mögen, weil es auf ziemlich einfache Weise funktioniert und nur minimalen Code erfordert, um ein maschinelles Lernmodell zusammen mit der Datenvisualisierung zu erstellen.

Voraussetzungen:

DABL: DABL ist eine Open-Source-Software, die von Andreas Müller entwickelt wurde. dabl macht überwachtes maschinelles Lernen für Anfänger zugänglicher und reduziert den Aufwand bei der Arbeit mit gängigen Aufgaben des maschinellen Lernens. dabl ist inspiriert von scikit-learn und auto-learn.

Dabl kann mit pip installiert werden. Die Bibliothek ist abhängig von der neuesten Version von scikit-learn. Wenn Sie diese also noch nicht haben, müssen Sie ein Upgrade durchführen oder die neueste Version installieren:

Verwenden Sie den folgenden Befehl, um DABL zu installieren.

Pip install dabl

Explorative Datenanalyse

# sphinx_gallery_thumbnail_number = 3
from dabl import plot
from dabl.datasets import load_ames
import matplotlib.pyplot as plt

# load the ames housing dataset
# returns a blank data frame
data = load_ames()

# define data frame and target
plot(data, 'SalePrice')
plt.show()

Verstehen wir nun Zeile für Zeile, was im Code passiert

  1. In der ersten Zeile importieren wir die Plot-Funktion aus DABL.
  2. Zweitens importieren wir den Ames-Wohnungsdatensatz aus den Datensätzen des DABL. Sie können auch die folgenden Datensätze verwenden, die ebenfalls aus der dabl-Datenbank stammen
    1. load_adult() – Es handelt sich um einen Volkszählungsdatensatz für Erwachsene.
    2. load_titanic() – Es ist ein gigantischer Datensatz.
  3. Importieren von matplotlib.pyplot als plt.
  4. Als Nächstes ordnen wir der Datenvariablen den Zielgehäusedatensatz zu, der durch die Funktion Ziele laden gegeben ist.
  5. dann die Plot-Funktion als Eingabe-Argument setzen wir in den Daten und dann setzen wir in der Ziel-Variable, die der Verkaufspreis ist.
  6. Und schließlich setzen wir plt. show aus der matplotlib ein.

Ausgabe:

Explorative Datenanalyse mit unserem Datensatz

from dabl import plot
import pandas as pd
import matplotlib.pyplot as plt
# load you own csv file
df = pd.read_csv("data.csv")
# define data frame and target
plot(df, 'Data_value')

Ausgabe:

Benutzerdefiniertes Plotten

dabl. plot() bietet einen Einblick in deskriptive Daten, garantiert aber nicht immer, dass alle Facetten eines Problems oder einer Situation in Bezug auf Ihre spezifischen Informationen erfasst werden. dabl bietet einen Überblick über allgemeine Probleme, wie z.B. was potenziell wichtig sein könnte und wie es sich auf andere Bereiche auswirken könnte, und lässt Sie entscheiden, ob Sie weitere Nachforschungen anstellen oder Fehler beheben müssen, um das Plotten an Ihre spezifischen Bedürfnisse anzupassen.

# importing all the required libraries from dabl import plot
import pandas as pd
import matplotlib.pyplot as plt

# load you own csv file
df = pd.read_csv("data.csv")
df
# define data frame and target
dabl.plot(df, target_col="Period")

plt.show()

Ausgabe:

Datenbereinigung mit dabl

Der erste Schritt bei jeder Datenanalyse besteht darin, die Daten für sich selbst sauber und lesbar zu machen, und genau das versucht dabl zu tun, indem es die Datentypen erkennt und entsprechende Konvertierungen vornimmt. Es wird auch versucht, mögliche Probleme mit der Datenqualität zu erkennen. Das Endziel der Datenbereinigung für dabl ist, dass die Daten sauber genug sind, um nützliche Visualisierungen und Modelle zu erstellen.

Dabl stellt Ihnen eine Methode namens dabl. clean zur Verfügung, um die Daten zu bereinigen.

#importing the required libraries
import dabl
import pandas as pd

# here we are using dabl.clean model to clean the data
data = pd.read_csv("data.csv")
data_clean = dabl.clean(data)[::10]
data_clean

# here you can also provide some suggestion on data type conversion
data_clean = dabl.clean(data, type_hints={"Period": "continuous"})

Modellbau mit dabl

Dabl soll die Implementierung fortschrittlicher KI-Trainingsmethoden vereinfachen, so dass Programmierer weniger Zeit für die Erstellung von Deep-Learning-Modellen aufwenden müssen und mehr Zeit für deren tatsächliche Nutzung haben. Das Trainieren von Machine-Learning-Modellen mit Dabl nimmt weniger Zeit und Speicherplatz in Anspruch, da es im Gegensatz zu anderen Machine-Learning-Bibliotheken, die in der Regel komplexer sind, eine unkomplizierte Schnittstelle verwendet. Wie bereits erwähnt, ist Dabl noch eine neue Bibliothek, die im Vergleich zu anderen Bibliotheken grundlegende Funktionen für maschinelles Lernen bietet. Aufgrund ihrer Einfachheit ist sie jedoch ein perfekter Kandidat, um Personen, die wenig oder gar keine Erfahrung mit maschinellen Lernmodellen haben, in dieses Gebiet einzuführen.

from dabl import plot
import pandas as pd
import matplotlib.pyplot as plt
from dabl import SimpleClassifier

# load you own CSV file
df = pd.read_csv("data.csv")

# building the model using SimpleClassifier method just add the dataset name and target name
ec = dabl.SimpleClassifier(random_state=0).fit(df, target_col="Series_title_1") 

Ausgabe:

Wie Sie sehen können, wurde das Modell in nur wenigen Sekunden und mit guter Genauigkeit erstellt. Derzeit verfügt es jedoch nur über eine ausgewählte Sammlung von Lernalgorithmen und funktioniert nicht jedes Mal wie bei Regressionsdatensätzen. Der Grund dafür ist, dass dabl eine relativ neue Bibliothek ist und es daher einige Zeit dauern wird, bis sie besser wird.

Beschränkungen von DABL

Unsere derzeitige Implementierung befasst sich nicht mit Textdaten, Zeitseriendaten oder neuronalen Netzwerkmodellen. Bild-, Audio- und Videodaten sind ebenfalls nicht möglich. Aber dabl verspricht, diese Funktionen zusammen mit einigen neuen Funktionen wie erweiterte Modellbildung, erklärbare Modellbildung, vorgefertigte Visualisierung, Typerkennung, automatische Vorverarbeitung und vieles mehr in der Zukunft zu bieten. Wenn Sie weitere Informationen wie eine vollständige Liste der API und Einschränkungen wünschen, können Sie die offiziellen Dokumente lesen.

Letzte Worte

Eines der Probleme mit dem derzeitigen Datenanalyse-Ökosystem ist der Mangel an Standardisierung. Jedes Paket geht anders vor, und es ist schwierig, den Einstieg zu finden. DABL ist eine Bibliothek, die versucht, dieses Problem zu lösen, indem sie der Datenanalyse-Community einen vertrauten Satz von Werkzeugen zur Verfügung stellt. Mit DABL können Sie auf einfache Weise eine Vielzahl von Daten importieren, manipulieren und exportieren. Wir hoffen, dass Ihnen unser Artikel über DABL, die Data Analysis Baseline Library, gefallen hat. Wenn Sie Fragen oder Kommentare zu dem Projekt haben, lassen Sie es uns bitte wissen, indem Sie unser GitHub-Repository besuchen. Vielen Dank für die Lektüre, wir hoffen, dass Sie DABL nützlich finden.