Dans cet article de blog, nous allons voir une bibliothèque d’apprentissage automatique en Python appelée dabl, qui signifie bibliothèque de base d’analyse de données. Il vous permet d’effectuer une analyse rapide des données exploratoires et en même temps, il vous permet également de créer très rapidement des modèles d’apprentissage automatique. Donc, si vous aimez le profilage de pandas, vous aimerez certainement le dabl aussi parce qu’il fonctionne à peu près d’une manière simple où il vous faut un minimum de code afin de construire un modèle d’apprentissage automatique avec la visualisation des données.

Conditions préalables:

DABL : dabl est un logiciel open-source créé par Andreas Mueller. dabl rend l’apprentissage automatique supervisé plus accessible aux débutants et réduit le passe-partout lorsque vous travaillez avec des tâches courantes en apprentissage automatique. dabl s’inspire de scikit-learn et d’auto-learn.

Dabl peut être installé en utilisant pip. La bibliothèque dépend de la dernière version de scikit-learn, donc si vous ne l’avez pas déjà, vous devrez mettre à niveau ou installer la dernière version :

Utilisez la commande suivante pour installer DABL.

Pip install dabl

L’analyse exploratoire des données

# sphinx_gallery_thumbnail_number = 3
from dabl import plot
from dabl.datasets import load_ames
import matplotlib.pyplot as plt

# load the ames housing dataset
# returns a blank data frame
data = load_ames()

# define data frame and target
plot(data, 'SalePrice')
plt.show()

Comprenons ligne par ligne ce qui se passe dans le code

  1. Dans la première ligne, nous importons la fonction plot de DABL.Deuxièmement, nous importons l’ensemble de données de logement d’Ames à partir des propres ensembles de données de la DABL. Vous pouvez également utiliser les ensembles de données suivants, ils proviennent également de la propre base de données de dabl-
    1. load_adult() – Il s’agit d’un ensemble de données de recensement d’adultes.
    2. load_titanic() – c’est un jeu de données titanesque.
  2. Importation de matplotlib.pyplot en tant que plt.
  3. Ensuite, nous attribuons à la variable de données l’ensemble de données sur les objectifs de logement donné par la fonction de chargement des objectifs .
  4. puis la fonction de tracé comme argument d’entrée que nous mettons dans les données, puis nous mettons dans la variable cible qui est le prix de vente.
  5. Et enfin, nous avons ajouté plt.show à partir de matplotlib.

Sortir:

Analyse exploratoire des données avec notre propre ensemble de données

from dabl import plot
import pandas as pd
import matplotlib.pyplot as plt
# load you own csv file
df = pd.read_csv("data.csv")
# define data frame and target
plot(df, 'Data_value')

Sortir:

traçage personnalisé

dabl.plot() offre un aperçu des données descriptives mais ne garantit pas toujours de fournir toutes les facettes d’un problème ou d’une situation liée à votre ensemble d’informations spécifique. dabl fournit des informations de haut niveau sur des problèmes courants tels que ce qui pourrait être potentiellement important, comment cela peut affecter d’autres domaines et vous permet de décider si vous devez ou non effectuer plus de recherches ou de dépannage afin de personnaliser le traçage en fonction de vos besoins spécifiques.

# importing all the required libraries from dabl import plot
import pandas as pd
import matplotlib.pyplot as plt

# load you own csv file
df = pd.read_csv("data.csv")
df
# define data frame and target
dabl.plot(df, target_col="Period")

plt.show()

Sortir:

Nettoyage des données avec dabl

La première étape de toute analyse de données consiste à rendre les données propres et lisibles par vous-même et c’est ce que dabl essaie de faire en détectant les types de données et en appliquant les conversions appropriées. Il essaie également de détecter les problèmes potentiels de qualité des données. L’objectif final du nettoyage des données pour dabl est que les données soient suffisamment propres pour créer une visualisation et des modèles utiles.

Dabl vous fournit une méthode appelée dabl.clean pour nettoyer les données.

#importing the required libraries
import dabl
import pandas as pd

# here we are using dabl.clean model to clean the data
data = pd.read_csv("data.csv")
data_clean = dabl.clean(data)[::10]
data_clean

# here you can also provide some suggestion on data type conversion
data_clean = dabl.clean(data, type_hints={"Period": "continuous"})

Modélisme avec dabl

Dabl a l’intention de simplifier la mise en œuvre de méthodes de formation avancées en IA, permettant aux programmeurs existants de passer plus facilement moins de temps à créer des modèles d’apprentissage en profondeur et plus à les utiliser réellement. Il faut moins de temps et de mémoire aux utilisateurs pour former des modèles d’apprentissage automatique avec Dabl car il utilise une interface simple par opposition à d’autres bibliothèques d’apprentissage automatique qui sont généralement de nature plus complexe. Comme mentionné précédemment, Dabl est toujours une nouvelle bibliothèque qui fournit des capacités d’apprentissage automatique de base par rapport aux autres bibliothèques. Cependant, sa simplicité en fait un candidat idéal pour introduire sur le terrain des personnes qui n’ont que peu ou pas d’expérience avec les modèles d’apprentissage automatique.

from dabl import plot
import pandas as pd
import matplotlib.pyplot as plt
from dabl import SimpleClassifier

# load you own CSV file
df = pd.read_csv("data.csv")

# building the model using SimpleClassifier method just add the dataset name and target name
ec = dabl.SimpleClassifier(random_state=0).fit(df, target_col="Series_title_1") 

Sortir:

Comme vous pouvez le voir, il a fini de construire le modèle en quelques secondes et avec une bonne précision. Mais actuellement, il n’a qu’une collection sélectionnée d’algorithmes d’apprentissage et cela ne fonctionne pas à chaque fois comme pour les ensembles de données de régression et la raison est que dabl est une bibliothèque relativement nouvelle, il faudra donc un certain temps pour s’améliorer.

Limites de DABL :

Notre implémentation actuelle ne traite pas des données textuelles, des données de séries chronologiques ou des modèles de réseaux neuronaux. Les données image, audio et vidéo sont également hors de portée. Mais dabl promet de fournir ces fonctionnalités ainsi que de nouvelles fonctionnalités telles que la construction de modèles améliorée, la construction de modèles explicables, la visualisation prête à l’emploi, la détection de type, le prétraitement automatique et bien d’autres à l’avenir. Si vous souhaitez plus d’informations, comme une liste complète des API et des limitations, vous pouvez lire la documentation officielle.

Conclusion:

L’un des problèmes de l’écosystème actuel d’analyse de données est le manque de normalisation. Chaque package a une manière différente de faire les choses et il est difficile de démarrer. DABL est une bibliothèque qui tente de résoudre ce problème en fournissant un ensemble d’outils familiers à la communauté d’analyse de données. Dans DABL, vous pouvez facilement importer, manipuler et exporter facilement une grande variété de données. Nous espérons que vous avez apprécié notre article sur DABL, la bibliothèque de base d’analyse de données. Si vous avez des questions ou des commentaires sur le projet, veuillez nous en informer en visitant notre référentiel GitHub. Merci d’avoir lu, nous espérons que vous trouverez DABL utile !