Pour ce dernier volet nous allons mettre en pratique les méthodes vues précédemment afin de préparer un jeu de données. Démarrons tout de suite cet exemple de programme Python :
Import des bibliothèques Python
Nous allons commencer par importer les bibliothèques qui serviront pour notre analyse.
Import des données
A présent nous allons importer nos données brutes et observer les premières lignes de notre dataset.
Pour avoir des informations sur les données on peut utiliser la méthode suivante:
Affichage de la description des données sur les variables numériques
Gestion des valeurs manquantes
Nous allons à présent voir le nombre de valeurs manquantes pour chaque colonnes.
Au vu de ces résultats, on peut dans un premier temps supprimer les colonnes avec plus de 50% de valeurs manquantes : la colonne ‘Alley’.
Après observation des colonnes, on peut dissocier en deux catégories les colonnes en fonction de leur type: Les types object et les autres (int, float…).
Des traitements différents sont à appliquer en fonction du type
Les données catégorielles :
Il est intéressant d’observer les valeurs uniques prises par les variables catégorielles:
Les données numériques :
Dans la catégorie variables numériques, on observe 259 valeurs manquantes pour la variable ‘LotFrontage’.
Dans le cas de variables catégorielles, il est possible de remplacer les valeurs manquantes d’une colonne par l’élément le plus fréquent grâce à la méthode mode.
Pour les variables numériques, il est d’usage de remplacer ces valeurs manquantes par la moyenne de la variable.
Nous avons à présent nettoyé notre dataset. Bien évidemment il existe encore de nombreuses techniques afin de bien préparer son jeu de données avant de l’analyser.
Dans cet exemple de programme Python, la chose importante que nous souhaitons souligner est que cette étape de préparation des données est primordiale. Si votre dataset n’est pas bien préparé, les résultats obtenus après analyse ne pourront pas être très concluants.
Cheat Sheet Python :
Merci de nous avoir suivi à travers ces 4 semaines pour découvrir le python et les premières phases du traitement des données. Vous souhaitez en apprendre plus sur la programmation python et mettre en place des modèles de Machine Learning ? Nos formations sont là pour ça !