La data visualisation représente une démarche indispensable pour tous les analystes des données : elle permet d’obtenir des informations claires et intelligibles qui peuvent être communiquées facilement à toute sorte de public. Le Treemap est un outil important dans la data visualisation et doit être maîtrisé par les Data Scientists et les Data Analysts.
Le Treemap, ou carte proportionnelle (ou encore carte à cases), est une représentation dans un espace limité de données organisées de manière hiérarchique (mais elle peut s’appliquer aussi à des données non hiérarchiques). À première vue le Treemap pourrait ressembler à un échiquier dans lequel chaque case aurait des dimensions variables et dans lequel on distinguerait des groupes (ou clusters) de cases ayant des couleurs similaires.
Cette représentation permet de comparer facilement les cases au sein de chaque groupe, les cases à travers les groupes ainsi que les groupes entre eux. Pour sa simplicité et son efficacité, le Treemap est utilisé dans une multiplicité de domaines : finance, démographie, production industrielle, marketing etc.
Il peut par exemple représenter de manière très efficace le poids relatif de chaque industrie dans chacune des filières de l’exportation d’un pays, ou la taille relative des différents assets selon leur nature spécifique dans un portfolio financier etc.
Comment est apparu le Treemap ?
Le Treemap naît de l’ingéniosité de Ben Shneiderman, professeur de Computer Science à l’université du Maryland et créateur du Human-computer Interaction Lab. Shneiderman ne s’intéressait ni aux différents secteurs de l’exportation de son pays ni à un portfolio financier. Au contraire, il voulait tout simplement trouver une solution rapide lui permettant de représenter l’ensemble des dossiers, directoires et fichiers présents dans l’hard-disk. Shneiderman avait donc besoin de représenter dans un espace réduit des données organisées de manière hiérarchique (dossiers et fichiers dans les dossiers). Il lui semblait évident que les diagrammes permettant de représenter une structure hiérarchique en suivant une structure à arbre présentaient le défaut important : avec tous les nœuds et leurs branches, ils devenaient très rapidement trop grands et ingérables.
Shneiderman avait donc besoin de trouver une solution pour représenter une structure hiérarchique en arbre dans un cadre ayant des contraintes d’espace : il inventa ainsi le Treemap. Dans un seul graphique rectangulaire il pouvait observer toute l’organisation hiérarchique de ses données dans le disque dur. Grâce à sa simplicité et sa clarté, le Treemap est devenu une célébrité dans le monde de la data visualisation.
Treemap : Quelle est sa force ?
Le Treemap se compose d’une série de rectangles imbriqués dont la superficie est proportionnelle aux données qu’ils représentent. Les rectangles plus grands représentent les branches principales de l’arbre et sont divisés dans des rectangles plus petits qui correspondent aux différents nœuds (ou sous-branches) de chaque branche. La valeur numérique des données correspond à l’aire de chaque rectangle. Cette organisation représente l’atout principal du Treemap.
En effet, grâce à cette organisation composée d’une structure à rectangle dans un espace restreint, le Treemap permet d’une part de comparer des quantités de manière très directe et efficace et d’autre part de faire émerger les tendances qui structurent nos données.
Ainsi des rectangles de tailles et de couleurs différentes sont utilisés à la fois pour montrer les différents éléments de la base de données et leur organisation mais aussi pour distinguer les variables et les modalités ayant un plus grand poids de celles ayant un poids plus marginal.
Les Treemaps permettent donc de représenter des classements, des différences entre les différentes parties, les proportions relatives etc..
Bien que l’organisation du Treemap ait été conçue pour visualiser des données organisées de manière hiérarchique, elle permet aussi de traiter des données non hiérarchiques. Quand le Treemap traite de données non hiérarchiques, il devient une alternative au classique camembert qui permet de représenter une partie et relation à l’ensemble.
La grosse différence et le grand avantage du Treemap est que, contrairement au graphique à camembert, il peut inclure des dizaines (voir des centaines) d’éléments. Dans ce sens le Treemap peut être une alternative au graphique à barres : en effet quand nos données sont composées d’un grand nombre d’éléments un éventuel graphique à barres serait impossible à représenter dans un graphique. Dans un tel cas de figure, nous pouvons utiliser un Treemap qui nous permet de représenter des dizaines de modalités à travers des dizaines de rectangles.
# Création d’un Treemap représentant DataScientest avec la librairie plotly de python
Applications et limites
Aujourd’hui plusieurs algorithmes permettant de représenter des données hiérarchiques à travers des Treemaps existent.
Nous pouvons citer Squarified, Slice and Dice, and Stripped : ces algorithmes sont extrêmement simples et faciles à implémenter. En particulier Squarified est parmi les algorithmes les plus utilisés pour ses qualités de représentation. En effet, il permet de créer des blocs les plus carrés possible et il les ordonne de manière décroissante en fonction de leurs dimensions. Cela permet de faciliter la comparaison entre les éléments.
Grâce à leurs propriétés, les Treemaps sont très utilisés dans le domaine de la Business Intelligence (BI). Cependant ils fournissent seulement une représentation des majeures tendances présentes dans les données et ne permettent pas de comparaisons précises ni l’analyse des relations entre les variables.
Un outil de visualisation comme le Treemap doit faire partie du bagage qu’un Data Scientist et un Data Analyst peut mobiliser. En vous formant à la Data Science vous apprendrez certainement à mobiliser ces outils.