Data Projekt: Wenn man mit Data Science anfängt, beginnt man unweigerlich mit der Durchführung von Projekten, die viel Zeit in Anspruch nehmen können. Wie bei jedem Projekt muss man sich organisieren, Aufgaben priorisieren und Etappenziele setzen, um den Fortschritt verfolgen und gegebenenfalls korrigieren zu können.
Wir bei DataScientest wollen dir die besten Tipps geben, wie diese 5 Schritte, die dich Schritt für Schritt durch alle deine Data-Projekte führen werden!
1. Erfassen der Hintergründe für dein Data Projekt
Bevor du dich an den Code oder die Datenbeschaffung machst, solltest du dir zunächst die nötige Zeit nehmen, um die gestellte Problematik zu verstehen und zu begreifen.
Was ist das Ziel des Projekts?
Gibt es bereits andere Arbeiten zu diesem Thema? Muss ich alleine arbeiten oder kann ich Mitarbeiter aus verschiedenen Abteilungen hinzuziehen?
Sollen meine Ergebnisse sofort verwendet werden oder sind sie Teil eines größeren Projekts?
Habe ich Annahmen über meine Daten und ihr Format gemacht und sie überprüft?
Es ist sehr wichtig, solche Fragen im Voraus zu klären, um unangenehme Überraschungen während des Data Projekts zu vermeiden und die Zeit, die du für die Durchführung des Projekts benötigst, möglichst gut einzuschätzen. Wenn du z. B. mit mehreren Teams arbeiten musst, solltest du überlegen, wie du deine Aktionen am besten koordinieren kannst. Es kann auch sein, dass ein bestimmtes Format für den Output erwartet wird, was du bei der Modellierung berücksichtigen solltest.
Für einen guten Start ist es auch wichtig, dass du dir vorher Gedanken über die Art des Problems und die zu wählende Bewertungsmethode machst:
- Handelt es sich um ein überwachtes, unüberwachtes, halbüberwachtes Klassifikationsproblem oder um ein Regressionsproblem?
- Welche Metrik wählst du? RMSE*? .. ?
Auch hier geht es darum, die Basis so gut wie möglich vorzubereiten.
Dies ist ein entscheidender Schritt, um dein Projekt mit dem richtigen Blickwinkel anzugehen. Ein weiterer Punkt, den du im Hinterkopf behalten solltest, bevor du loslegst, ist die Ausrüstung, die du zur Verfügung hast.
Welche Maschine für welche Rechenzeit? Es ist nicht sinnvoll, eine Lösung vorzuschlagen, die einen ganzen Tag braucht, um zu laufen.
2. Daten für dein Data Projekt abrufen und erforschen
Wenn du die Daten abrufst, mit denen du arbeiten wirst, solltest du zuerst sicherstellen, dass du die optimale Arbeitsumgebung hast: Hast du alle Pakete, die du brauchst?
Es kann vorkommen, dass du an mehreren Projekten gleichzeitig arbeitest, die verschiedene Umgebungen erfordern. Wenn du Angst hast, Konflikte zu verursachen, zögere nicht, isolierte virtuelle Umgebungen zu erstellen.
Nachdem du deine Arbeitsumgebung überprüft hast, ist es an der Zeit, die Daten herunterzuladen und zu erforschen.
Eine deskriptive und visuelle Analyse ist entscheidend, um die Struktur, die Stärken und Schwächen deines Datensatzes zu verstehen.
Achte auf die Arten von Variablen, die du hast (qualitative und quantitative), und zögere nicht, nach vielversprechenden Kombinationen zu suchen, die du für dein Modell testen kannst.
Dies wird dir helfen, deine Daten in ihrer Gesamtheit zu verstehen.
3. Bereite deine Arbeitsgrundlagen für dein Data Projekt vor
Bei jedem Data Projekt wirst du normalerweise deine Datenbank in zwei Teile aufteilen müssen: eine Übungsdatenbank und eine Testdatenbank. Diese Strategie ermöglicht es dir, die Effektivität deines Modells zu überprüfen.
Es ist sehr gut möglich, dass deine Daten in ihrer jetzigen Form nicht für die Modellierung geeignet sind; es liegt an dir, sie umzuwandeln.
Um dies zu tun, musst du dem Umgang mit fehlenden Werten Prioritäten setzen und eine Strategie dafür festlegen. Auch hier geht es darum, sich die richtigen Fragen zu stellen:
Habe ich Nans* in den quantitativen Variablen?
Wenn ja, wie hoch ist der Anteil für jede Variable?
Wie hoch ist meine Ausschlussgrenze?
Womit kann ich meine Nans füllen, ohne mein Modell zu gefährden?
Dasselbe gilt für die qualitativen Variablen. Es wird notwendig sein, deine kategorialen Variablen mithilfe von Diskretisierungsmethoden umzuwandeln.
Schließlich funktionieren Machine-Learning-Algorithmen nicht immer gut mit numerischen Variablen, deren Skalen unterschiedlich sind.
4. Ein Modell auswählen und trainieren
Wenn deine Daten fertig sind, kannst du mit der Modellierung beginnen. Scikit-Learn stellt eine Vielzahl von Regressions-, Klassifikations- und Ensemblemethoden zur Verfügung. Die Wahl des Modells muss natürlich auf die jeweilige Fragestellung abgestimmt werden.
Es kann sein, dass du dich noch einmal in den ersten Schritt zurückversetzen musst, um die Frage nach der Art des Problems zu klären. Dann gibt es natürlich nicht nur einen einzigen Regressions- oder Klassifikationsalgorithmus. Du hast zwei Möglichkeiten:
Alle testen und den besten nehmen (wahrscheinlich zu teuer).
Die Entscheidung, welchen Algorithmus du testen willst, hängt von deinen Daten und den verfügbaren Ressourcen ab.
Wenn du dich für ein Modell entschieden hast, stellt sich die Frage nach der Parametrisierung: Wie können die Parameter des Algorithmus optimiert werden, um das Overfitting zu begrenzen? Eine Rasterfahndung kann eine Lösung sein, kann aber je nach Ressourcen auch zeitaufwendig sein.
5. Bewerte deine Ergebnisse
Nachdem du dein Modell trainiert hast, musst du seine Effektivität mithilfe deiner Testbasis und der Metrik, die du im ersten Schritt ausgewählt hast, bewerten.
Bist du mit dem Ergebnis deiner Metrik zufrieden? Wenn nicht, hast du die Möglichkeit, die Ergebnisse zu verbessern? Um diese Frage zu beantworten, hast du drei Möglichkeiten:
- Das Modell: Es ist vielleicht nicht geeignet für das, was du tun willst. Du solltest nicht zögern, andere Wege zu gehen.
- Die Parameter deines Modells: Sie sind vielleicht nicht optimiert, was die Leistung beeinträchtigt.
- Daten: Wenn du dir bei der Wahl deines Algorithmus sicher bist, musst du vielleicht deine Daten erweitern, um die Leistung deines Modells zu verbessern.
Diese fünf Schritte sind als Orientierungspunkte zu sehen, wenn du an einem Projekt arbeitest. Je nachdem, was passiert, musst du bestimmte Schritte überdenken. Du solltest nicht zögern, zwischen diesen Schritten hin und her zu wechseln.
Möchtest du ein Datenprojekt im Rahmen eines Zertifikatslehrgangs durchführen? Möchtest du deine Fähigkeiten im Bereich Data Science verbessern und dabei von Experten angeleitet werden? Zögere nicht, schau dir unsere nächsten Starttermine an oder kontaktiere uns für weitere Informationen!