Wenn du ein Data-Science-Projekt beginnst, ist es sehr wichtig, über die Modellierung des jeweiligen Problems nachzudenken.
Wenn du den Umsatz einer E-Commerce-Website steigern willst, kannst du versuchen, die Konversionsrate mithilfe eines Klassifikationsmodells zu erhöhen, die Verweildauer der Nutzer anhand ihres Profils zu bestimmen, die Reise der Besucher zu modellieren, den verschiedenen Marketingkanälen den Besuch der Besucher zuzuordnen, die Suchmaschinenoptimierung der Website zu verbessern etc.
Es gibt verschiedene mathematische Ansätze: Machine Learning, Überlebensanalyse, Markov-Ketten, Berechnung von Shapley-Werten, Schätzung eines PageRank-Scores, …
Man sieht also, dass Machine Learning nicht das A und O des Berufs des Data Scientists ist und dass man sich mit anderen mathematischen Modellen beschäftigen muss, die auf der Wahrscheinlichkeitstheorie, der Spieltheorie oder der Graphentheorie basieren.
In diesem Sinne werden wir einen Kurs zu einem Thema entwickeln, das heute so aktuell ist wie nie zuvor: die Überlebensanalyse.
Was ist eine Überlebensanalyse?
Die Überlebensanalyse ist ein Bereich der Statistik, der sich mit der Lebensdauer von Individuen in einer Population befasst. Es wird versucht, den Zeitpunkt des Todes zu schätzen.
Aber ihr Anwendungsbereich ist viel größer:
- Vorausschauende Wartung: Vorhersage, wann eine Maschine ausfällt, um rechtzeitig eingreifen zu können.
- Churn analysis: Vorhersage, wann ein Kunde eine Dienstleistung abbestellen wird.
- Kreditanalyse: Vorhersage des Zeitpunkts, an dem ein Kunde in Verzug gerät.
- Epidemiologie: Vorhersage, wann ein Patient geheilt wird (dann stirbt der Virus/die Bakterie).
Die Verwendung solcher Modelle in der Medizin geht auf die 1950er Jahre zurück, aber einige Forscher arbeiten an Algorithmen, die diese Modelle mit Techniken des maschinellen Lernens kombinieren.
Fokus auf die Überlebensfunktion
In der Überlebensanalyse versucht man, die Verteilung einer Zufallsvariablen X zu schätzen, die dem Todesdatum entspricht. In diesem Fall wird die Überlebensfunktion eingeführt:
S(t) = P(X>t)
und die momentane Risikorate :
Diese Größen können mit Hilfe von nichtparametrischen (Kaplan-Meier), semi-parametrischen (Cox) oder parametrischen Schätzern geschätzt werden. Diese beiden letzten Arten von Schätzern ermöglichen es insbesondere, den Einfluss von erklärenden Variablen auf die Überlebensfunktion zu messen.
In der Überlebensanalyse ist die PySurvival-Bibliothek sehr nützlich, sie ist sehr gut referenziert und dokumentiert und bietet viele interessante Werkzeuge zur Visualisierung und Leistungsmessung.
Hat dir dieser Artikel das Wasser im Mund zusammenlaufen lassen? Du solltest wissen, dass bald eine Schulung zu diesem Thema beginnt! Kontaktiere uns für weitere Informationen!
Möchtest du mehr über die Möglichkeiten von Machine Learning erfahren? Dann nimm an einem unserer Kurse teil!