Comment supprimer les doublons sur Excel ?

-
3
 m de lecture
-
Created with GIMP

Se retrouver avec des données dupliquées sur Excel peut parfois s’avérer embêtant et même amener à des erreurs et à fausser les analyses. Mais pas de panique, trouver et supprimer ces doublons sur Excel est plutôt chose aisée.

Tout d’abord, qu’est ce qu’une donnée dupliquée ?

Les doublons peuvent être définis de différentes manières pour une collection de données.

Une simple collection de données comportant trois colonnes pour la marque, le modèle et l’année d’une liste de chaussures est présentée ci-dessous.

Image1

On remarque que sur la première colonne, il y a plusieurs doublons de la marque de chaussures.

Sur la deuxième colonne, on remarque également qu’il y a des modèles qui se répètent

Enfin sur la dernière colonne, on retrouve plusieurs fois la même année de parution.

Image2

La deuxième image montre tous les doublons sur l’ensemble des colonnes du tableau. Elle représente les lignes qui se répètent dans le tableau (même marque, même modèle et même année de parution).

Gérer les doublons basés sur une seule colonne et gérer les lignes identiques sur Excel sont deux manipulations différentes. Avant de supprimer quelque donnée que ce soit, faites attention au type de doublons que vous souhaitez supprimer.

Comment supprimer les doublons sur Excel ?

Avec la commande Supprimer les doublons sur Excel, vous pouvez trouver et supprimer les valeurs en double.

La suppression des valeurs en double dans les données est une activité régulière. Elle est si fréquente que le ruban Excel dispose d’une commande spéciale à cet effet.

Attention, cette commande supprime les lignes en double et non les doublons qui se trouvent sur une même colonne. 

Image3

Allez dans l’onglet Données et cliquez sur la commande Supprimer les doublons dans une cellule des données dont vous souhaitez supprimer les doublons.

La fenêtre Supprimer les doublons apparaît après qu’Excel ait sélectionné l’ensemble des données.

Vous devez ensuite indiquer à Excel si la première ligne de données contient des en-têtes de colonne. Si cette option est sélectionnée, la première ligne de données sera ignorée lors de la recherche et de l’élimination des valeurs en double.

Image4

Vous pouvez ensuite choisir les colonnes à utiliser pour trouver les doublons. Si vos données contiennent une longue liste de colonnes, vous pouvez utiliser les boutons Sélectionner tout et Désélectionner tout ci-dessus.

Lorsque vous appuyez sur OK, Excel supprime toutes les valeurs en double qu’il découvre et vous fournit un compte récapitulatif du nombre de valeurs supprimées et du nombre de valeurs restantes.

Astuce : Comme ce programme modifie vos données, il est recommandé de l’exécuter sur une copie de vos données afin de conserver les données originales intactes.

Supprimer les doublons à l’aide d’un tableau croisé dynamique :

Avec un tableau croisé dynamique, vous pouvez trouver et supprimer les valeurs en double.

Les tableaux croisés dynamiques ne servent pas uniquement à examiner vos données. Vous pouvez également les utiliser pour vous débarrasser de vos données en double !

Cependant cette méthode n’est pas directe. Elle ne supprime pas vraiment les valeurs en double de vos données ; elle utilise plutôt la fonction du tableau croisé dynamique qui affiche les valeurs de l’ensemble de vos données en un unique exemplaire.

Comment ça marche ?

Créez d’abord un tableau croisé dynamique à partir de vos données. Sélectionnez une cellule ou la plage complète de données dans vos données, puis allez dans l’onglet Insertion, sélectionnez Tableau croisé dynamique et cliquez sur OK dans la boîte de dialogue Créer un tableau croisé dynamique.

Image5

Ajoutez tous les champs à la zone « Lignes » du tableau croisé dynamique.

La mise en page du tableau croisé dynamique résultant doit ensuite être modifiée en un format tabulaire. Sélectionnez Mise en page du rapport dans l’onglet Conception alors que le tableau croisé dynamique est sélectionné. Vous devrez mettre à jour deux options dans cette section.

    • Choisissez Afficher sous forme tabulaire dans le menu déroulant.
Image6
    • Sélectionnez l’option permettant de répéter toutes les étiquettes des éléments.
Image7

Vous voudrez également vous débarrasser de tous les sous-totaux du tableau croisé dynamique. Sélectionnez « Sous-totaux » dans l’onglet Création, puis « Ne pas afficher les sous-totaux ».

Image9

Vous avez maintenant un tableau croisé dynamique qui ressemble à un tableau de données !

En effet, les tableaux croisés dynamiques ne répertorient que les valeurs uniques des éléments de la zone “Lignes”.

En conclusion, les valeurs dupliquées dans vos données peuvent entraver la création d’un ensemble de données propre.

Heureusement, Excel offre de nombreuses possibilités pour supprimer ces doublons irritants.

Et vous, quelle méthode comptez-vous utiliser pour vous débarrasser des doublons ?

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?