In diesem letzten Teil werden wir die zuvor besprochenen Methoden anwenden, um einen Datensatz vorzubereiten. Starten wir gleich mit diesem Beispiel eines Python-Programms :
Import von Python-Bibliotheken
Wir beginnen damit, die Bibliotheken zu importieren, die wir für unsere Analyse verwenden werden.
Dataimport
Wir werden nun unsere Rohdaten importieren und die ersten Zeilen unseres Datasets betrachten.
Um Informationen über die Daten zu erhalten, kann man die folgende Methode verwenden:
Anzeige der Datenbeschreibung zu numerischen Variablen
Umgang mit fehlenden Werten
Wir sehen uns nun die Anzahl der fehlenden Werte für jede Spalte an.
Angesichts dieser Ergebnisse können wir in einem ersten Schritt die Spalten mit mehr als 50% fehlenden Werten löschen: die Spalte ‚Alley‘.
Nach der Beobachtung der Spalten können wir die Spalten nach ihrem Typ in zwei Kategorien unterteilen: Objekttypen und andere Typen (int, float…).
Je nach Art sind unterschiedliche Behandlungen anzuwenden
Kategoriale Daten :
Es ist interessant, die eindeutigen Werte zu beobachten, die von den kategorialen Variablen eingenommen werden:
Numerische Daten
In der Kategorie numerische Variablen gibt es 259 fehlende Werte für die Variable ‚LotFrontage‘.
Bei kategorialen Variablen ist es möglich, die fehlenden Werte in einer Spalte mit der Methode mode durch das häufigste Element zu ersetzen.
Bei numerischen Variablen ist es üblich, diese fehlenden Werte durch den Mittelwert der Variable zu ersetzen.
Wir haben nun unser Dataset bereinigt. Natürlich gibt es noch viele weitere Techniken, um deinen Datensatz vor der Analyse gut vorzubereiten.
In diesem Beispiel für ein Python-Programm möchten wir darauf hinweisen, dass die Vorbereitung der Daten von entscheidender Bedeutung ist. Wenn dein Dataset nicht gut vorbereitet ist, können die Ergebnisse der Analyse nicht sehr aussagekräftig sein.
Python programmieren lernen
Vielen Dank, dass du uns durch die vier Wochen begleitet hast, in denen wir Python und die ersten Phasen der Datenverarbeitung kennengelernt haben.
Möchtest du mehr über die Python-Programmierung lernen und Machine-Learning-Modelle implementieren? Unsere Schulungen sind genau das Richtige für dich!