Un Dendrogamme est un diagramme de regroupement hiérarchique, permettant d'organiser des données en arborescence en fonction de leurs similitudes. Découvrez tout ce que vous devez savoir à son sujet.
La visualisation de données est très utile pour présenter les données de façon lisible et pertinente. Il existe une large variété de techniques et d’algorithmes pour organiser automatiquement les données de diverses manières. L’une de ces méthodes est le regroupement hiérarchique, reposant sur les diagrammes de type Dendrogramme.
Qu'est-ce que le clustering hiérarchique ?
Le clustering ou regroupement hiérarchique consiste à créer une arborescence de cluster pour représenter les données. Au sein de cet arbre, chaque groupe ou » noeud » est lié à deux groupes successeurs ou davantage.
Les groupes sont imbriqués entre eux et organisés sous la forme d’un arbre. Chaque noeud de l’arborescence contient un groupe de données similaires, et les noeuds sont regroupés en fonction de leurs similitudes.
Les groupes d’un niveau rejoignent les groupes du niveau supérieur, toujours en fonction de leurs similitudes. Le processus se poursuit jusqu’à ce que tous les noeuds soient intégrés à l’arborescence.Le nombre total de clusters n’est pas prédéterminé avant la création du graphique.
Dans l’idéal, le schéma final représente une classification claire et lisible des données. Ce regroupement hiérarchique offre un » snapshot » visuel instantané de l’ensemble de données. Cette arborescence de clusters porte le nom de dendrogramme.
Qu'est-ce qu'un dendrogramme ?
Le Dendrogramme est donc le type de diagramme en arborescence que l’on utilise pour présenter le clustering hiérarchique, à savoir les relations entre des ensembles de données similaires.
Ce type de graphique est couramment utilisé dans le domaine de la biologie, notamment, pour présenter les liens entre des groupes de gènes. Toutefois, il est possible de représenter n’importe quel type de données. C’est la raison pour laquelle le Dendrogramme est un concept majeur de la Data Science et de la Data Visualization.
Les différentes parties d'un dendrogramme
On distingue différentes formes de Dendrogrammes. Il peut s’agir d’un graphique en ligne, ou en colonne. Le diagramme a parfois aussi une forme circulaire, ou tout simplement une forme abstraite.
Néanmoins, les logiciels produisent généralement des graphiques en ligne ou en colonne. Quelle qu’en soit la forme, un dendrogramme de base regroupe les mêmes composants.
Les clades sont les branches de l’arbre. Le plus souvent, chaque clade est désigné par une lettre de l’alphabet grec dans un sens de lecture allant de la gauche vers la droite.
Chaque clade possède une ou plusieurs feuilles. Ces feuilles peuvent être simples, doubles ou triples. La quantité de feuilles d’un clade est théoriquement illimitée, mais le graphique devient plus difficile à lire à mesure que le nombre augmente.
Comment lire un Dendrogramme ?
Comme expliqué précédemment, les clades d’un Dendogramme sont organisés en fonction de leurs similitudes. De fait, les clades alignés sur la même hauteur sont similaires tandis que les clades de hauteurs différentes sont différents.
Plus la différence de taille est importante, plus les clades sont différents. Il existe différentes méthodes pour mesurer la similitude, est l’une des plus populaires est le coefficient de corrélation de Pearson.
Les algorithmes de regroupement hiérarchique
Tous les algorithmes de regroupement hiérarchique sont » monotones « . Cela signifie qu’ils augmentent ou diminuent. Ils peuvent aller de bas en haut ou de haut en bas.
Si l’algorithme va de bas en haut, il s’agit d’un d’un algorithme HAC : Hierachical Agglomerative Clustering ou regroupement hiérarchique agglomératif. Cet algorithme traite d’abord chaque document comme un cluster unique, puis combine les éléments deux par deux pour former de nouveaux clusters.
La manière dont les paires sont combinées dépend d’un calcul de différence entre chaque paire combinée et les autres échantillons. Il existe différentes méthodes de calcul de cette différence.
Le lien complet consiste à mesurer la similitude avec la paire la plus éloignée, mais cette méthode présente un risque de fusion entre des groupes proches trop tardive pour être optimale.
Une autre méthode est celle du lien unique ou single-linkage. Elle consiste à mesurer la similitude avec la paire la plus proche. Là encore, l’inconvénient est un risque de fusion prématurée entre des groupes de paires proches malgré leurs différences.
La méthode de la moyenne du groupe, ou group average, mesure la similitude entre les groupes. Enfin, la similitude du centre de gravité, ou » centroid similarity « , consiste à fusionner les clusters avec le point central le plus similaire à chaque itération.
Quelle que soit la méthode, ce processus d’appairage se poursuit jusqu’à ce que tous les éléments soient fusionnés en un seul cluster. Le HAC est l’algorithme de clustering hiérarchique le plus utilisé. Toutefois, il présente l’inconvénient de nécessiter une puissance de calcul et une capacité de stockage colossales. Tout particulièrement pour le Big Data.
En effet, à titre de comparaison, ces algorithmes très complexes représentent quatre fois la taille d’un algorithme de K-moyennes. Un autre défaut est que la fusion entre les groupes est irréversible. Ceci peut poser problème pour des données bruyantes ou de haute dimension.
Si l’algorithme va de haut en bas, il s’agit d’un algorithme de type divise clustering ou regroupement par division. Dans ce cas de figure, les données sont d’abord traitées comme un cluster combiné.
Il se divise ensuite en deux parties distinctes, en fonction des similitudes. Chaque cluster se divise ensuite à nouveau en deux, et ainsi de suite jusqu’à ce que chaque groupe ne contienne qu’un seul point de données.
Il s’agit donc du fonctionnement inverse aux algorithmes HAC. Toutefois, le clustering par division est très rarement utilisé.
Quels sont les inconvénients du Dendrogramme ?
Le regroupement hiérarchique est pratique, mais peut facilement résulter sur des Dendrogrammes totalement erronés. Pour cause, l’algorithme de clustering s’exécutera même sur des données totalement inadaptées.
Une autre raison est que la méthode de création de clusters choisie peut générer des Dendrogrammes très différents. Il est très important de choisir la bonne méthode, mais ce n’est pas toujours évident.
La seule façon d’éviter à coup sûr ce désagrément est de connaître précisément toutes les données du dataset. Dans le cas du Big Data, c’est quasiment impossible.
Comment apprendre à utiliser le Dendrogramme ?
Le Dendrogramme n’est qu’un type de diagramme parmi tant d’autres dans le domaine de la visualisation de données. Pour apprendre à utiliser toutes les techniques de DataViz, vous pouvez vous tourner vers les formations DataScientest.
La Data Visualization est au programme de nos parcours Data Analyst, Data Scientist et Data Management. Ces différents cursus vous permettront d’acquérir toutes les compétences requises pour travailler dans la Data Science, telles que la programmation en Python, la manipulation de bases de données ou le Machine Learning.
Toutefois nos formations peuvent être effectuées en BootCamp ou en formation continue. Elles adoptent par ailleurs une approche innovante de » blended learning » mariant présentiel et distanciel pour offrir le meilleur des deux mondes.
Ces parcours peuvent être financés par le Compte Personnel de Formation, ou par Pôle Emploi via l’AIF. À l’issue du programme, les apprenants reçoivent un diplôme certifié par l’Université de la Sorbonne et 93% de nos alumnis ont trouvé un emploi immédiatement. Ne perdez plus une seconde, et découvrez nos formations !
Vous savez tout sur le Dendrogramme. Découvrez notre dossier complet sur la DataViz, et notre introduction au langage de programmation Python.