JPO : Webinar d'information sur nos formations → RDV mardi à 17h30.

Wie erstellt man Wordcloud auf Python?

WordClouds (deutsch: Schlagwortwolken) sind nützliche Werkzeuge, um die wichtigsten Begriffe eines Textes, einer Webseite oder auch eines Buches zusammenzufassen. Je häufiger ein Wort in dem betrachteten Text vorkommt, desto größer erscheint es in der Wordcloud.

Es gibt viele Websites und Apps, mit denen man Wordclouds einfach und kostenlos erzeugen kann. Hier ist zum Beispiel eine, die aus einem unserer Artikel über die Einführung in die Datenwissenschaft erstellt wurde :

Es handelt sich zwar um eine Wordcloud… jedoch bleibt es schwierig, die wichtigsten Begriffe aus dem Text herauszulesen. Außerdem kann man die Form, die Farben usw. nicht anpassen.

Wenn Du Deine Wordcloud anpassen möchtest, um sie besser lesbar und schöner zu machen, kann es sinnvoll sein, Python anstelle einer Webseite zu nutzen.

Wie erstellt man eine Wordcloud mit Python?

Als Erstes müssen wir die benötigten Bibliotheken importieren.

Mit WordCloud und matplotlib.pyplot können wir eine grundlegende Wordcloud anzeigen. Mit numpy und Image werden wir später die Form unserer Wordcloud anpassen.

Wir beginnen damit, den Text, den wir in eine Wordcloud umwandeln wollen, in einer Variablen zu speichern (hier ‚text‘ genannt).

Um die Ergebnisse, die wir in der Anwendung erhalten, mit denen zu vergleichen, die wir in Python erhalten können, verwenden wir denselben Text wie zuvor.

Wir sind bereit, unsere erste Wordcloud anzuzeigen :

Diese Wordcloud ist zwar noch weniger lesbar als die, die wir von einer Website aus generiert haben, aber keine Sorge! Wir werden sie schnell verbessern.

Das erste, was auffällt, ist, dass kleine Wörter (Artikel und Präpositionen) in unserer Wordcloud übermäßig wichtig sind – was logisch ist, da sie sehr häufig verwendet werden. Sie sind jedoch keine Hilfe, wenn man versucht, die Schlüsselbegriffe in einem Text zu finden: Man möchte sie am liebsten loswerden.

Glücklicherweise ist es einfach, irrelevante Wörter zu entfernen, indem man sie in einer Liste speichert und das Argument stopwords verwendet :

STARTE DEINE KARRIERE
IM BEREICH DATA SCIENCE

Du bist an einem Quereinstieg in den Bereich Big Data interessiert, weißt aber nicht, wo Du anfangen sollst? Dann solltest Du einen Blick auf unsere Weiterbildungen im Bereich Data Science werfen.

STARTE DEINE KARRIERE
IM BEREICH DATA SCIENCE

Du bist an einem Quereinstieg in den Bereich Big Data interessiert, weißt aber nicht, wo Du anfangen sollst? 

Dann solltest Du einen Blick auf unsere Weiterbildungen im Bereich Data Science werfen.

Das ist schon viel besser! Endlich können wir relevante Informationen aus unserer Wordcloud ziehen.

Ein Problem bleibt jedoch bestehen: Die Darstellung ist wirklich nicht schön – das müssen wir ändern.

Beginnen wir damit, die Form anzupassen.

Dazu müssen wir einfach eine Maske auswählen (hier verwenden wir zum Beispiel eine Maske in Form einer Wolke, die bei Google Image zu finden ist).

Um diese Maske für die Python-Bibliothek nutzbar zu machen, müssen wir sie in ein numpy-Array umwandeln. Wenn ein Wert in dem Array „255“ ist, dann wird in dem entsprechenden Bereich kein Wort erscheinen.

Schließlich können wir die Farbe unserer Wordcloud anpassen, indem wir die Methode recolor verwenden.

Hier erstellen wir eine Farbfunktion, die jedes Wort in einem bläulichen Ton einfärbt :

Endlich haben wir eine brauchbare und (relativ) schöne Wordcloud!

Außerdem haben wir nur die grundlegendsten Funktionen der Python-Bibliothek verwendet.

Wenn Du noch weiter gehen und noch interessantere Dinge als Wordclouds lernen möchtest, kannst Du uns direkt online kontaktieren, um weitere Informationen über unsere Data Science Ausbildungen zu erhalten!

Weiterlesen

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!