🚀 Êtes-vous fait pour la Data ? Découvrez-le en 1 min

Données manquantes : Comment les gérer efficacement en data science ?

-
4
 m de lecture
-
Un homme présentant une tablette avec le texte 'MISSING DATA' et deux points clés : Deletion et Imputation, au milieu d'un environnement de données.

Dans le monde réel, les jeux de données parfaitement complets sont l’exception. Que ce soit lors de la saisie manuelle, de l’extraction automatique ou de la fusion de plusieurs sources, les données manquantes sont omniprésentes. Mal gérées, elles peuvent fausser les analyses, réduire la performance des modèles et introduire des biais importants.

Comprendre la nature et les mécanismes derrière ces absences est donc essentiel. Car si ignorer les données manquantes est tentant, cela revient souvent à ignorer une partie significative du problème.

Dans cet article, nous allons explorer en détail comment identifier, catégoriser et traiter les données manquantes en data science. Nous aborderons également les critères de choix d’une méthode d’imputation et les bonnes pratiques pour minimiser leur impact.

Comprendre la nature des données manquantes

Définition et identification des données manquantes

Une donnée manquante correspond à une absence de valeur dans une cellule d’un jeu de données. Elle peut être représentée par NaN, None, une cellule vide, ou des indicateurs comme « N/A ».

Pour les identifier, plusieurs outils existent :

  • Exploration visuelle : des bibliothèques comme missingno (Python) permettent de visualiser les patterns de valeurs manquantes (ex. heatmaps, matrices).

  • Fonctions descriptives : en Python, .isnull().sum() sur un DataFrame Pandas donne le nombre de valeurs manquantes par colonne.

Pourquoi les données sont-elles manquantes ? Les mécanismes de perte ?

Comprendre pourquoi une donnée est absente est fondamental. Trois mécanismes sont classiquement distingués :

  • MCAR (Manque Complètement Aléatoire) : La probabilité qu’une valeur soit manquante est indépendante de toutes les autres variables.
    Exemple : une panne aléatoire lors de la collecte de données.

  • MAR (Manque Aléatoire) : L’absence dépend d’autres variables observées, mais pas de la valeur manquante elle-même.
    Exemple : les hommes répondent moins souvent à une question sur la dépression que les femmes — l’absence dépend du genre.

  • MNAR (Manque Non Aléatoire) : L’absence dépend de la valeur manquante elle-même ou d’un facteur non observé.
    Exemple : les très hauts revenus sont rarement déclarés — c’est la valeur en elle-même qui influence le manque.

Impact des différents types de manque

Le type de mécanisme influence profondément la stratégie de traitement. Si MCAR autorise des traitements simples, MAR et MNAR nécessitent des méthodes plus complexes, voire spécifiques au domaine.

Un expert en data science présentant un graphique sur les données manquantes avec les mentions NaN et iAN.

Stratégies de traitement des données manquantes

1. Suppression des données manquantes

  • Suppression par liste

Cette méthode consiste à supprimer toutes les lignes d’un jeu de données contenant au moins une valeur manquante. Elle est couramment utilisée car elle est simple à mettre en œuvre.

  • Suppression par paire

Cette approche consiste à utiliser toutes les données disponibles pour chaque analyse spécifique, sans nécessairement exclure une ligne entière. Par exemple, une corrélation entre deux variables n’utilisera que les observations pour lesquelles ces deux variables sont présentes.

  • Suppression de variables

Cette méthode consiste à supprimer une colonne entière si le pourcentage de valeurs manquantes y est trop élevé (souvent >50 %). Elle peut s’avérer pertinente lorsque la variable concernée est difficilement récupérable ou peu utile.

Méthode Avantages Inconvénients
Suppression par liste - Facile à mettre en œuvre- Aucun ajout artificiel de données - Perte d'information importante si les données ne sont pas MCAR
- Risque de biais
Suppression par paire - Conserve davantage de données
- Moins destructif
- Résultats difficiles à interpréter
- Matrices statistiques instables
Suppression de variables - Nettoyage rapide- Réduction de la dimension - Risque de perdre une variable pertinente
Un analyste de données examinant un tableau avec des graphiques et des statistiques sur les données manquantes en data science.

2. Imputation simple

  • Imputation par la Moyenne, la Médiane ou le Mode

Cette approche remplace les valeurs manquantes par des mesures de tendance centrale. La moyenne et la médiane sont utilisées pour les variables numériques, tandis que le mode s’applique aussi bien aux variables catégorielles que numériques.

  • Imputation par une Valeur Constante ou Indicateur Binaire

Une valeur arbitraire (comme -1 ou « Inconnu ») est utilisée pour remplacer les données manquantes. Parfois, une nouvelle variable binaire est ajoutée pour indiquer si la valeur d’origine est manquante.

Méthode Avantages Inconvénients
Moyenne / Médiane / Mode - Facile et rapide- Peu coûteux en ressources - Réduction de la variance- Peut fausser la distribution et les corrélations
Valeur constante / Indicateur - Préserve l'information sur l'absence- Compatible avec certains modèles - Peut introduire des biais- Sensible au choix arbitraire de la valeur imputée

3. Imputation avancée

  • Imputation par Régression

Il s’agit de prédire la valeur manquante à l’aide d’un modèle de régression utilisant les autres variables du jeu de données comme prédicteurs.

  • Imputation par k-Plus Proches Voisins (k-NN)

Les valeurs manquantes sont imputées en prenant la moyenne des k observations les plus similaires, mesurées à l’aide d’une distance entre variables observées.

Méthode Avantages Inconvénients
Régression - Exploite les relations inter-variables - Risque de biais si les hypothèses sont violées- Peut surestimer la relation entre variables
k-Plus Proches Voisins (k-NN) - Capture des relations complexes- Adapté aux données numériques et mixtes - Coût computationnel élevé
- Sensible au choix de k et de la métrique

Choisir la bonne stratégie et évaluer son impact

Facteurs clés pour la sélection d'une méthode

La sélection d’une méthode de traitement des données manquantes dépend de plusieurs facteurs. D’abord, la nature des variables (numériques, catégorielles ou mixtes) oriente le choix des techniques : certaines méthodes comme l’imputation par moyenne ou régression s’appliquent surtout aux variables numériques, tandis que le mode ou des valeurs constantes conviennent aux variables catégorielles. 

Le taux de valeurs manquantes est aussi crucial : en dessous de 5 %, des approches simples peuvent suffire, mais au-delà de 20 %, il devient risqué de supprimer des données ou d’utiliser des imputations naïves. 

Par ailleurs, il est important de se demander si une variable a réellement un impact sur la cible ou sur les analyses en cours. Si une variable présente beaucoup de données manquantes et n’apporte pas d’information utile, il est souvent préférable de la supprimer. Cela permet d’éviter un traitement coûteux et inutile, tout en simplifiant le modèle ou les visualisations. Cette approche est particulièrement pertinente lorsque des analyses exploratoires ou des tests de corrélation montrent que la variable est faiblement liée aux autres.

Une fois la méthode appliquée, il est indispensable d’évaluer son impact : comparer les distributions des variables avant/après imputation, mesurer les performances du modèle via validation croisée, et effectuer une analyse de sensibilité en testant plusieurs stratégies pour vérifier la robustesse des résultats.

Conclusion

La gestion des données manquantes est un défi incontournable en data science. Comprendre leurs origines, identifier leur nature, choisir la bonne méthode d’imputation et en évaluer l’impact sont autant d’étapes critiques pour assurer la fiabilité des analyses.

Plutôt que de chercher une solution unique, il est souvent préférable de tester plusieurs approches, adaptées au contexte spécifique. Avec l’évolution des outils et des techniques, la gestion des données manquantes devient de plus en plus fine et intégrée dans le pipeline de traitement.

Adopter une démarche rigoureuse, transparente et informée reste la clé pour faire face à cet enjeu central.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?