La programmation python pour les nuls – Episode 4

-
2
 m de lecture
-
exemple programme python

Pour ce dernier volet nous allons mettre en pratique les méthodes vues précédemment afin de préparer un jeu de données. Démarrons tout de suite cet exemple de programme Python :

Import des bibliothèques Python

Nous allons commencer par importer les bibliothèques qui serviront pour notre analyse.

Import des données

A présent nous allons importer nos données brutes et observer les premières lignes de notre dataset.

import des données python

Pour avoir des informations sur les données on peut utiliser la méthode suivante:

import des données python

Affichage de la description des données sur les variables numériques

import des données python

Gestion des valeurs manquantes 

Nous allons à présent voir le nombre de valeurs manquantes pour chaque colonnes.

import des données python

Au vu de ces résultats, on peut dans un premier temps supprimer les colonnes avec plus de 50% de valeurs manquantes : la colonne ‘Alley’.

Après observation des colonnes, on peut dissocier en deux catégories les colonnes en fonction de leur type: Les types object et les autres (int, float…).

Des traitements différents sont à appliquer en fonction du type

Les données catégorielles :

Il est intéressant d’observer les valeurs uniques prises par les variables catégorielles:

import des données python

Les données numériques :

Dans la catégorie variables numériques, on observe 259 valeurs manquantes pour la variable ‘LotFrontage’.

Dans le cas de variables catégorielles, il est possible de remplacer les valeurs manquantes d’une colonne par l’élément le plus fréquent grâce à la méthode mode.
Pour les variables numériques, il est d’usage de remplacer ces valeurs manquantes par la moyenne de la variable.

Nous avons à présent nettoyé notre dataset. Bien évidemment il existe encore de nombreuses techniques afin de bien préparer son jeu de données avant de l’analyser.

Dans cet exemple de programme Python, la chose importante que nous souhaitons souligner est que cette étape de préparation des données est primordiale. Si votre dataset n’est pas bien préparé, les résultats obtenus après analyse ne pourront pas être très concluants.

Cheat Sheet Python :

Merci de nous avoir suivi à travers ces 4 semaines pour découvrir le python et les premières phases du traitement des données. Vous souhaitez en apprendre plus sur la programmation python et mettre en place des modèles de Machine Learning ?  Nos formations sont là pour ça ! 

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?