exemple programme python

La programmation python pour les nuls – Episode 4

Greg T

Greg T

2 min

Pour ce dernier volet nous allons mettre en pratique les méthodes vues précédemment afin de préparer un jeu de données. Démarrons tout de suite cet exemple de programme Python :

Import des bibliothèques Python

Nous allons commencer par importer les bibliothèques qui serviront pour notre analyse.

Import des données

A présent nous allons importer nos données brutes et observer les premières lignes de notre dataset.

import des données python

Pour avoir des informations sur les données on peut utiliser la méthode suivante:

import des données python

Affichage de la description des données sur les variables numériques

import des données python

Gestion des valeurs manquantes 

Nous allons à présent voir le nombre de valeurs manquantes pour chaque colonnes.

import des données python

Au vu de ces résultats, on peut dans un premier temps supprimer les colonnes avec plus de 50% de valeurs manquantes : la colonne ‘Alley’.

Après observation des colonnes, on peut dissocier en deux catégories les colonnes en fonction de leur type: Les types object et les autres (int, float…).

Des traitements différents sont à appliquer en fonction du type :

  • Les données catégorielles :

Il est intéressant d’observer les valeurs uniques prises par les variables catégorielles:

import des données python
  • Les données numériques :

Dans la catégorie variables numériques, on observe 259 valeurs manquantes pour la variable ‘LotFrontage’.

Dans le cas de variables catégorielles, il est possible de remplacer les valeurs manquantes d’une colonne par l’élément le plus fréquent grâce à la méthode mode.
Pour les variables numériques, il est d’usage de remplacer ces valeurs manquantes par la moyenne de la variable.

Nous avons à présent nettoyé notre dataset. Bien évidemment il existe encore de nombreuses techniques afin de bien préparer son jeu de données avant de l’analyser.

Dans cet exemple de programme Python, la chose importante que nous souhaitons souligner est que cette étape de préparation des données est primordiale. Si votre dataset n’est pas bien préparé, les résultats obtenus après analyse ne pourront pas être très concluants.

Merci de nous avoir suivi à travers ces 4 semaines pour découvrir le python et les premières phases du traitement des données. Vous souhaitez en apprendre plus sur la programmation python et mettre en place des modèles de Machine Learning ?  Nos formations sont là pour ça ! 

Cheat Sheet Python :

Source : Laurent Pointal, Ingénieur d’Études CNRS 

DataScientist : Recrutement VS Formation

Pour la 5ème année consécutive, le métier de Data Scientist a été désigné comme le meilleur emploi aux USA par Glassdoor c’est aussi le métier qui connaît la croissance la plus rapide.

Lire plus »
Intelligence Artificielle et Société

Ethique ou Big Data

Comment faire prévaloir une question d’éthique en matière de données alors que la concurrence se veut mondiale ? Les européens doivent-ils se soumettre à une concurrence américaine et asiatique déloyale pour une question d’éthique ?

Lire plus »