Ein Dendrogamma ist ein hierarchisches Gruppierungsdiagramm, mit dem Daten anhand ihrer Ähnlichkeiten in einer Baumstruktur angeordnet werden können. Hier erfahren Sie alles, was Sie darüber wissen müssen.
Die Datenvisualisierung ist sehr nützlich, um Daten lesbar und relevant darzustellen. Es gibt eine Vielzahl von Techniken und Algorithmen, um Daten automatisch auf unterschiedliche Weise zu organisieren. Eine dieser Methoden ist die hierarchische Gruppierung, die auf Dendrogramm-Diagrammen beruht.
Was ist hierarchisches Clustering?
Beim Clustering oder der hierarchischen Gruppierung wird ein Clusterbaum erstellt, um die Daten darzustellen. Innerhalb dieses Baumes ist jede Gruppe oder „Knoten“ mit zwei oder mehr Nachfolgergruppen verbunden.
Die Gruppen sind miteinander verschachtelt und in Form eines Baumes organisiert. Jeder Knoten des Baums enthält eine Gruppe ähnlicher Daten, und die Knoten werden entsprechend ihrer Ähnlichkeiten gruppiert.
Die Cluster einer Ebene schließen sich den Clustern der nächsthöheren Ebene an, immer auf der Grundlage ihrer Ähnlichkeiten. Dieser Prozess wird fortgesetzt, bis alle Knoten in die Baumstruktur aufgenommen sind.Die Gesamtzahl der Cluster wird vor der Erstellung des Diagramms nicht vorherbestimmt.
Im Idealfall stellt das endgültige Schema eine klare und lesbare Klassifizierung der Daten dar. Diese hierarchische Gruppierung bietet einen sofortigen visuellen „Snapshot“ des Datensatzes. Diese Baumstruktur aus Clustern wird Dendrogramm genannt.
Was ist ein Dendrogramm?
Das Dendrogramm ist also die Art von Baumdiagramm, die man verwendet, um hierarchisches Clustering darzustellen, d. h. die Beziehungen zwischen ähnlichen Datensätzen.
Diese Art von Diagramm wird häufig in der Biologie verwendet, insbesondere um die Verbindungen zwischen Gruppen von Genen darzustellen. Es ist jedoch möglich, jede Art von Daten darzustellen. Aus diesem Grund ist das Dendrogramm ein wichtiges Konzept der Data Science und der Data Visualization.
Die verschiedenen Teile eines Dendrogramms
Man unterscheidet verschiedene Formen von Dendrogrammen. Es kann sich um ein Linien- oder ein Spaltendiagramm handeln. Manchmal hat das Diagramm auch eine Kreisform oder einfach eine abstrakte Form.
Dennoch erzeugt die Software in der Regel Zeilen- oder Spaltendiagramme. Unabhängig von der Form besteht ein grundlegendes Dendrogramm aus denselben Komponenten.
Die Kladen sind die Äste des Baumes. Meist wird jede Klade durch einen Buchstaben des griechischen Alphabets in einer Leserichtung von links nach rechts bezeichnet.
Jede Klade hat ein oder mehrere Blätter. Diese Blätter können einfach, doppelt oder dreifach sein. Die Anzahl der Blätter einer Klade ist theoretisch unbegrenzt, aber die Grafik wird mit zunehmender Anzahl immer schwerer lesbar.
💡Auch interessant:
Wie liest man ein Dendrogramm?
Wie bereits erwähnt, werden die Kladen in einem Dendogramm nach ihrer Ähnlichkeit geordnet. So sind Kladen, die auf derselben Höhe ausgerichtet sind, ähnlich, während Kladen mit unterschiedlicher Höhe unterschiedlich sind.
Je größer der Größenunterschied, desto unterschiedlicher sind die Kladen. Es gibt verschiedene Methoden, um die Ähnlichkeit zu messen, eine der populärsten ist der Korrelationskoeffizient nach Pearson.
Algorithmen zur hierarchischen Gruppierung
Alle Algorithmen zur hierarchischen Gruppierung sind „monoton“ . Das bedeutet, dass sie entweder zunehmen oder abnehmen. Sie können von unten nach oben oder von oben nach unten verlaufen.
Wenn der Algorithmus von unten nach oben verläuft, handelt es sich um einen HAC-Algorithmus: Hierachical Agglomerative Clustering oder Hierarchical Agglomerative Clustering. Dieser Algorithmus behandelt zunächst jedes Dokument als ein einzelnes Cluster und kombiniert dann die Elemente paarweise zu neuen Clustern.
Wie die Paare kombiniert werden, hängt von einer Berechnung der Differenz zwischen jedem kombinierten Paar und den anderen Stichproben ab. Es gibt verschiedene Methoden, um diese Differenz zu berechnen.
Bei der vollständigen Verknüpfung wird die Ähnlichkeit mit dem am weitesten entfernten Paar gemessen, doch bei dieser Methode besteht das Risiko, dass nahe Gruppen zu spät zusammengeführt werden, um optimal zu sein.
Eine weitere Methode ist die Single-Linkage-Methode. Sie besteht darin, die Ähnlichkeit mit dem nächstgelegenen Paar zu messen. Auch hier besteht der Nachteil darin, dass die Gefahr besteht, dass Gruppen von Paaren, die sich trotz ihrer Unterschiede ähnlich sind, vorzeitig zusammengeführt werden.
Die Methode des Gruppendurchschnitts, oder group average, misst die Ähnlichkeit zwischen den Gruppen. Bei der Schwerpunktähnlichkeit schließlich, oder „centroid similarity“ , werden die Cluster mit dem ähnlichsten Mittelpunkt in jeder Iteration zusammengeführt.
Unabhängig von der Methode wird dieser Paarungsprozess so lange fortgesetzt, bis alle Elemente zu einem Cluster verschmolzen sind. HAC ist der am häufigsten verwendete hierarchische Clustering-Algorithmus. Er hat jedoch den Nachteil, dass er eine gigantische Rechenleistung und Speicherkapazität erfordert. Ganz besonders für Big Data.
Denn zum Vergleich: Diese hochkomplexen Algorithmen sind viermal so groß wie ein K-Mittelwert-Algorithmus. Ein weiterer Nachteil ist, dass die Verschmelzung zwischen den Gruppen irreversibel ist. Dies kann bei verrauschten oder hochdimensionalen Daten problematisch sein.
Wenn der Algorithmus von oben nach unten verläuft, handelt es sich um einen Divise-Clustering- oder Teilungsclustering-Algorithmus. In diesem Fall werden die Daten zunächst als ein kombinierter Cluster behandelt.
Anschließend teilt er sich in zwei verschiedene Teile, je nachdem, wie groß die Ähnlichkeiten sind. Jedes Cluster teilt sich dann wieder in zwei Teile und so weiter, bis jede Gruppe nur noch einen einzigen Datenpunkt enthält.
Es handelt sich also um die umgekehrte Funktionsweise der HAC-Algorithmen. Das Divisionsclustering wird jedoch nur sehr selten verwendet.
Was sind die Nachteile des Dendrogramms?
Hierarchisches Clustering ist praktisch, kann aber leicht zu völlig falschen Dendrogrammen führen. Der Grund dafür ist, dass der Clustering-Algorithmus auch bei völlig ungeeigneten Daten ausgeführt wird.
Ein weiterer Grund ist, dass die gewählte Methode zur Clusterbildung sehr unterschiedliche Dendrogramme erzeugen kann. Es ist sehr wichtig, die richtige Methode zu wählen, aber das ist nicht immer einfach.
Die einzige Möglichkeit, dieses Ärgernis sicher zu vermeiden, besteht darin, alle Daten des Datasets genau zu kennen. Im Falle von Big Data ist dies nahezu unmöglich.
Wie lerne ich, das Dendrogramm zu verwenden?
Das Dendrogramm ist nur eine von vielen Diagrammarten im Bereich der Datenvisualisierung. Um zu lernen, wie Sie alle DataViz-Techniken anwenden können, sollten Sie sich an die DataScientest-Trainings wenden.
Data Visualization steht auf dem Programm unserer Studiengänge Data Analyst, Data Scientist und Data Management. In diesen verschiedenen Studiengängen erwerben Sie alle Fähigkeiten, die Sie für die Arbeit in der Data Science benötigen, wie z. B. Python-Programmierung, Umgang mit Datenbanken oder Machine Learning.
Unsere Kurse können jedoch auch als BootCamp oder als Weiterbildung durchgeführt werden. Sie verfolgen einen innovativen Ansatz des „Blended Learning“, der Präsenzunterricht und Fernunterricht miteinander verbindet, um das Beste aus beiden Welten zu bieten.
Diese Kurse können über das Persönliche Ausbildungskonto oder von Pôle Emploi über die AIF finanziert werden. Nach Abschluss des Programms erhalten die Lernenden ein von der Université de la Sorbonne zertifiziertes Diplom und 93 % unserer Alumni haben sofort eine Stelle gefunden. Verlieren Sie keine Sekunde mehr und entdecken Sie unsere Ausbildungsgänge!