Dans le monde réel, les jeux de données parfaitement complets sont l’exception. Que ce soit lors de la saisie manuelle, de l’extraction automatique ou de la fusion de plusieurs sources, les données manquantes sont omniprésentes. Mal gérées, elles peuvent fausser les analyses, réduire la performance des modèles et introduire des biais importants.
Comprendre la nature et les mécanismes derrière ces absences est donc essentiel. Car si ignorer les données manquantes est tentant, cela revient souvent à ignorer une partie significative du problème.
Dans cet article, nous allons explorer en détail comment identifier, catégoriser et traiter les données manquantes en data science. Nous aborderons également les critères de choix d’une méthode d’imputation et les bonnes pratiques pour minimiser leur impact.
Comprendre la nature des données manquantes
Définition et identification des données manquantes
Une donnée manquante correspond à une absence de valeur dans une cellule d’un jeu de données. Elle peut être représentée par NaN, None, une cellule vide, ou des indicateurs comme « N/A ».
Pour les identifier, plusieurs outils existent :
- Exploration visuelle : des bibliothèques comme missingno (Python) permettent de visualiser les patterns de valeurs manquantes (ex. heatmaps, matrices).
- Fonctions descriptives : en Python, .isnull().sum() sur un DataFrame Pandas donne le nombre de valeurs manquantes par colonne.
Pourquoi les données sont-elles manquantes ? Les mécanismes de perte ?
Comprendre pourquoi une donnée est absente est fondamental. Trois mécanismes sont classiquement distingués :
- MCAR (Manque Complètement Aléatoire) : La probabilité qu’une valeur soit manquante est indépendante de toutes les autres variables.
Exemple : une panne aléatoire lors de la collecte de données. - MAR (Manque Aléatoire) : L’absence dépend d’autres variables observées, mais pas de la valeur manquante elle-même.
Exemple : les hommes répondent moins souvent à une question sur la dépression que les femmes — l’absence dépend du genre. - MNAR (Manque Non Aléatoire) : L’absence dépend de la valeur manquante elle-même ou d’un facteur non observé.
Exemple : les très hauts revenus sont rarement déclarés — c’est la valeur en elle-même qui influence le manque.
Impact des différents types de manque
Le type de mécanisme influence profondément la stratégie de traitement. Si MCAR autorise des traitements simples, MAR et MNAR nécessitent des méthodes plus complexes, voire spécifiques au domaine.

Stratégies de traitement des données manquantes
1. Suppression des données manquantes
- Suppression par liste
Cette méthode consiste à supprimer toutes les lignes d’un jeu de données contenant au moins une valeur manquante. Elle est couramment utilisée car elle est simple à mettre en œuvre.
- Suppression par paire
Cette approche consiste à utiliser toutes les données disponibles pour chaque analyse spécifique, sans nécessairement exclure une ligne entière. Par exemple, une corrélation entre deux variables n’utilisera que les observations pour lesquelles ces deux variables sont présentes.
- Suppression de variables
Cette méthode consiste à supprimer une colonne entière si le pourcentage de valeurs manquantes y est trop élevé (souvent >50 %). Elle peut s’avérer pertinente lorsque la variable concernée est difficilement récupérable ou peu utile.
Méthode | Avantages | Inconvénients |
---|---|---|
Suppression par liste | - Facile à mettre en œuvre- Aucun ajout artificiel de données | - Perte d'information importante si les données ne sont pas MCAR - Risque de biais |
Suppression par paire | - Conserve davantage de données - Moins destructif |
- Résultats difficiles à interpréter - Matrices statistiques instables |
Suppression de variables | - Nettoyage rapide- Réduction de la dimension | - Risque de perdre une variable pertinente |

2. Imputation simple
- Imputation par la Moyenne, la Médiane ou le Mode
Cette approche remplace les valeurs manquantes par des mesures de tendance centrale. La moyenne et la médiane sont utilisées pour les variables numériques, tandis que le mode s’applique aussi bien aux variables catégorielles que numériques.
- Imputation par une Valeur Constante ou Indicateur Binaire
Une valeur arbitraire (comme -1 ou « Inconnu ») est utilisée pour remplacer les données manquantes. Parfois, une nouvelle variable binaire est ajoutée pour indiquer si la valeur d’origine est manquante.
Méthode | Avantages | Inconvénients |
---|---|---|
Moyenne / Médiane / Mode | - Facile et rapide- Peu coûteux en ressources | - Réduction de la variance- Peut fausser la distribution et les corrélations |
Valeur constante / Indicateur | - Préserve l'information sur l'absence- Compatible avec certains modèles | - Peut introduire des biais- Sensible au choix arbitraire de la valeur imputée |
3. Imputation avancée
- Imputation par Régression
Il s’agit de prédire la valeur manquante à l’aide d’un modèle de régression utilisant les autres variables du jeu de données comme prédicteurs.
- Imputation par k-Plus Proches Voisins (k-NN)
Les valeurs manquantes sont imputées en prenant la moyenne des k observations les plus similaires, mesurées à l’aide d’une distance entre variables observées.
Méthode | Avantages | Inconvénients |
---|---|---|
Régression | - Exploite les relations inter-variables | - Risque de biais si les hypothèses sont violées- Peut surestimer la relation entre variables |
k-Plus Proches Voisins (k-NN) | - Capture des relations complexes- Adapté aux données numériques et mixtes | - Coût computationnel élevé - Sensible au choix de k et de la métrique |

Choisir la bonne stratégie et évaluer son impact
Facteurs clés pour la sélection d'une méthode
La sélection d’une méthode de traitement des données manquantes dépend de plusieurs facteurs. D’abord, la nature des variables (numériques, catégorielles ou mixtes) oriente le choix des techniques : certaines méthodes comme l’imputation par moyenne ou régression s’appliquent surtout aux variables numériques, tandis que le mode ou des valeurs constantes conviennent aux variables catégorielles.
Le taux de valeurs manquantes est aussi crucial : en dessous de 5 %, des approches simples peuvent suffire, mais au-delà de 20 %, il devient risqué de supprimer des données ou d’utiliser des imputations naïves.
Par ailleurs, il est important de se demander si une variable a réellement un impact sur la cible ou sur les analyses en cours. Si une variable présente beaucoup de données manquantes et n’apporte pas d’information utile, il est souvent préférable de la supprimer. Cela permet d’éviter un traitement coûteux et inutile, tout en simplifiant le modèle ou les visualisations. Cette approche est particulièrement pertinente lorsque des analyses exploratoires ou des tests de corrélation montrent que la variable est faiblement liée aux autres.
Une fois la méthode appliquée, il est indispensable d’évaluer son impact : comparer les distributions des variables avant/après imputation, mesurer les performances du modèle via validation croisée, et effectuer une analyse de sensibilité en testant plusieurs stratégies pour vérifier la robustesse des résultats.
Conclusion
La gestion des données manquantes est un défi incontournable en data science. Comprendre leurs origines, identifier leur nature, choisir la bonne méthode d’imputation et en évaluer l’impact sont autant d’étapes critiques pour assurer la fiabilité des analyses.
Plutôt que de chercher une solution unique, il est souvent préférable de tester plusieurs approches, adaptées au contexte spécifique. Avec l’évolution des outils et des techniques, la gestion des données manquantes devient de plus en plus fine et intégrée dans le pipeline de traitement.
Adopter une démarche rigoureuse, transparente et informée reste la clé pour faire face à cet enjeu central.
