Was ist ein Dataset? Wie wird es manipuliert?

Datasets (oder Datensätze) werden häufig im Machine Learning verwendet. Sie umfassen einen zusammenhängenden Datensatz, der in verschiedenen Formaten vorliegen kann (Texte, Zahlen, Bilder, Videos usw.).

Datasets können in verschiedenen Arten dargestellt werden, seien es Tabellen, Graphen, Bäume oder andere. In Machine-Learning-Algorithmen wird oft mit Array-Strukturen gearbeitet.

Jeder in einem Dataset vorhandene Wert ist mit einem Attribut und einer Beobachtung verknüpft. 

Nehmen wir zum Beispiel Daten über verschiedene Personen mit und ohne Covid-19.

Die Attribute werden verschiedenen Merkmalen entsprechen, wie z. B. Alter, Gewicht, Größe, Wohnort, Symptome … Während jede Beobachtung einer anderen Person zugeordnet wird.

Der Vorteil von Datasets ist, dass sie verschiedene Daten manipulieren und verändern können. Wir werden uns mit ihrer Manipulation in Python beschäftigen.

Wie man Datasets in Python manipuliert ?

In Python erfolgt die Datenmanipulation mit der Bibliothek pandas, deren Dokumentation hier zugänglich ist: 

Sie ermöglicht es, Datasets zu erstellen oder zu importieren, aber auch, sie zu manipulieren, bevor sie Modelle für das maschinelle Lernen anwenden.

Wenn wir einen Datensatz erhalten, müssen wir einige Änderungen vornehmen. Denn oftmals besitzen die Daten mehrere Fehler. Zum Beispiel kann es fehlende Daten geben (die oft für die Analyse benötigt werden). Es können auch vom Benutzer falsch eingegebene Daten vorliegen (falsch gesetzte Kommas, zu viele Nullen usw.).  Probleme treten auch mit dem Datentyp auf. Häufig sind Attribute (wie z. B. das Alter) im Textformat, während wir, um statistische Funktionen für dieses Attribut zu verwenden (wie z. B. den Altersdurchschnitt, die Standardabweichung oder Ähnliches zu bilden), die Daten dieses Attributs in das Zahlenformat umwandeln müssen.

Mit den Funktionen und Methoden von Pandas können wir diese verschiedenen Manipulationsschritte leicht durchführen und die notwendigen Änderungen an unserem Datensatz vornehmen.

Nachdem die Daten des Datensatzes verarbeitet wurden, werden häufig Machine-Learning-Algorithmen auf unsere Datensätze angewendet, um Muster vorherzusagen.

Nehmen wir erneut das Beispiel unseres Datensatzes über Covid-19-Patienten

Wenn wir diesen Datensatz erhalten, müssen wir, bevor wir Modelle für Machine Learning erstellen, mehrere Änderungen vornehmen:

  • Es liegen keine Informationen über die persönlichen Eigenschaften von Patient 4 vor, daher muss beispielsweise die Zeile gelöscht werden (da sie nicht verwendbar ist)
  • Die Größe wird im Textformat angegeben (das ist gut sichtbar, weil wir in dem Kästchen eine Mischung aus Zahlen und Text haben). Daher müssen wir die ersten drei Zeichen jedes Kästchens abrufen und den Typ in Zahlenformat ändern.
  • Wir sehen, dass das Gewicht des Patienten eine 0 zu viel hat.

Wenn wir all diese Änderungen vorgenommen haben, können wir die Daten sinnvoll auswerten und Modelle erstellen. Typischerweise können wir mit einem solchen Datensatz vorhersagen, welches Personenprofil in einer bestimmten Region mit welcher Wahrscheinlichkeit welche Symptome aufweist.

Wenn es notwendig ist, mit Datasets umzugehen, müssen Sie auch sicherstellen, dass die Datenquellen gültig sind. Mit falschen Daten zu arbeiten, wäre nämlich nur Zeitverschwendung. 

Ein Artikel in unserem Blog listet Seiten auf, die es ermöglichen, Daten von kompetenten Seiten zu finden.

Datasets sind daher sehr effizient und sehr manipulierbar, um Daten zu verarbeiten. In unseren Schulungen lernen Sie die verschiedenen Werkzeuge kennen, mit denen Sie Daten manipulieren und verschiedene Modelle vorsehen können. Für weitere Informationen zögern Sie nicht, mit uns Kontakt aufzunehmen.

Weiterlesen

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!