🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Bayesian Optimization: So funktioniert die smarte Optimierungsmethode

-
3
 Minuten Lesezeit
-

Um ein prädiktives Modell zu definieren, greifen Data Scientists auf eine Vielzahl von Beobachtungen zurück. Doch obwohl die Untersuchung dieser Beobachtungen zu einem optimalen Ergebnis führt, haben die Data-Experten oft nur wenig Zeit, um alle Hypothesen zu analysieren. Also, wie findet man das richtige Modell in kürzester Zeit? Genau hier kommt die bayesianische Optimierung ins Spiel. Worum geht es dabei? Wie funktioniert es? Die Antworten findest Du hier.

Was ist der bayesianische Ansatz?

Die bayesianische Optimierung leitet sich direkt aus dem Satz von Bayes ab:

Durch diesen Satz hast du einen Wert y, der eine Funktion von x ist. Die Idee ist dann, den Wert von x zu bestimmen, indem man den Wert von y optimiert. Hierbei besteht x aus einer Reihe von Parametern (oder Beobachtungen).

Konkret kann dies in einer Vielzahl von Situationen angewendet werden, wie beispielsweise der Festlegung eines idealen Preises zur Maximierung der Margen, der Konfiguration einer Anwendung oder Datenbank zur Maximierung ihrer Leistung, der Parametrierung zur Optimierung des Supervised Learning, usw.

In all diesen Hypothesen haben die Data Scientists nur eine begrenzte Anzahl von Beobachtungen zur Verfügung, um ein optimales Ergebnis zu erzielen (sei es aufgrund von zeitlichen, finanziellen oder materiellen Einschränkungen).

Um das beste Modell zu definieren, müssen in der Regel viele Hypothesen getestet und mehrere Trainings- und Validierungsphasen durchgeführt werden. Doch all diese Testphasen sind zeitaufwändig. Es ist daher nicht möglich, eine unbegrenzte Anzahl von Hypothesen zu untersuchen.

Um diesen Einschränkungen zu begegnen, wurde die bayesianische Optimierung eingeführt

Wie funktioniert die bayesianische Optimierung?

Die zentrale Idee der bayesianischen Optimierung besteht darin, die Anzahl der Beobachtungen zu minimieren und gleichzeitig schnell zur optimalen Lösung zu konvergieren. Hierfür sind drei grundlegende Prinzipien zu kennen.

Der Gaussian Process

Die Idee des bayesianischen Ansatzes ist es, die bekannten Beobachtungen zu nutzen, um Wahrscheinlichkeiten von Ereignissen abzuleiten, die noch nicht beobachtet wurden. Um zu diesem Schluss zu gelangen, muss für jeden Wert X die Wahrscheinlichkeitsverteilung bestimmt werden.

Die effektivste Methode dafür ist zweifellos der Gaussian Process. Dieser ermöglicht es, den wahrscheinlichsten Wert (genannt Mittelwert µ) und die wahrscheinliche Streuung des Wertes um den Mittelwert (genannt Standardabweichung σ) zu identifizieren. Diese Standardabweichung σ verringert sich, je näher du einem bereits beobachteten Punkt kommst.

Idealerweise sollte man diese Werte und Distanzen für jeden Beobachtungspunkt berechnen. In der Praxis ist diese umfassende Darstellung jedoch aus Zeitgründen nicht möglich. Daher müssen die zu bewertenden Punkte ausgewählt werden.

Die Erkundung und die Ausnutzung

Um ein leistungsfähiges prädiktives Modell zu entwerfen, müssen die Data Scientists die relevantesten Punkte definieren. Dies geschieht in zwei Phasen:

  • Die Erkundung: Diese ist besonders dann interessant, wenn die Standardabweichung besonders groß ist. Anders gesagt, wenn die unbekannte Variable im Suchraum hoch ist. Dadurch kann man mehrere Modelle testen und das Wissen über die zu optimierende Funktion verbessern.
  • Die Ausnutzung: In diesem Stadium geht es darum, die im Vorfeld getesteten Modelle zu verfeinern. Die Idee ist, den maximalen oder maximalen Punkt zu finden. Hierfür nutzen die Data Scientists den Mittelwert µ. Wenn dieser sich in den Extremen befindet, ist es einfacher, das richtige Modell zu identifizieren.

Vorsicht: Es ist wichtig, das richtige Gleichgewicht zwischen Erkundung und Ausnutzung zu finden. Wenn du die Erkundung bevorzugst, riskierst du, andere möglicherweise leistungsfähigere Modelle zu vernachlässigen. Umgekehrt, wenn du die Ausnutzung vorziehst, könntest du notwendige Verbesserungen übersehen.

Die Akquisitionsfunktion

Die Akquisitionsfunktion ermöglicht es, den richtigen Kompromiss zwischen diesen beiden Variablen zu finden. Für jeden Punkt im Suchraum identifiziert die Funktion ein Optimierungspotenzial. Unter all diesen Punkten identifiziert die Funktion ein Maximum. Dies ist der nächste zu testende Punkt. Man wiederholt die Berechnung so oft wie nötig, bis eine Konvergenz zwischen Maximum und Minimum erreicht ist. Dieses Parameterpaar soll die beste Leistung ermöglichen.

Gut zu wissen: Störungen können die Daten beeinträchtigen und das Lernen erschweren. Um dies zu vermeiden, ist es wichtig sicherzustellen, dass die Umgebung ausreichend stabil ist und die Beobachtungen reproduzierbar sind, bevor die bayesianische Optimierung genutzt wird.

Wie setzt man die bayesianische Optimierung in die Praxis um?

Um die Berechnungen der bayesianischen Optimierung zu vereinfachen, ist es am einfachsten, gute Tools zu verwenden. Wie das Python-Package scikit-optimize oder bayesian-optimization. Es genügt, einen Suchraum zu definieren, und das Tool übernimmt dann die Identifikation der Punkte mit hohem Potenzial, insbesondere durch den Gaussian Process. Auch hier muss Python neu gestartet werden, bis ein zufriedenstellendes Ergebnis erzielt wird.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.