Eine Gaußsche Kurve ist eine visuelle Darstellung von Daten, die dem Gaußschen Gesetz folgen. Hier findest du die vollständige Definition und erfährst, warum dieses Wahrscheinlichkeitsgesetz in der Data Science und im Machine Learning von entscheidender Bedeutung ist.
In der Statistik ist eine Verteilung eine Sammlung von Werten und Häufigkeiten einer Beobachtung. Diese Beobachtung kann z. B. das Alter einer Bevölkerung sein.
Bei einer Gaußschen Verteilung, die auch als Normalverteilung bezeichnet wird, bilden die Daten eine Glockenkurve. Das bedeutet, dass die Werte näher an den Mittelwerten als an den Extremen liegen.
Es handelt sich um eine Gaußsche Kurve. Sie wurde nach dem Mathematiker und Physiker Carl Friedrich Gauß benannt.
Es gibt jedoch auch andere Gesetze, die häufig verwendet werden. Dazu gehören die Binomial- und die Poisson-Verteilung. Warum wird also die Gaußsche Gesetzmäßigkeit am häufigsten verwendet?
Warum ist das Gaussche Gesetz so wichtig für die Data Science?
Die Gaußsche Gesetzmäßigkeit ist allgegenwärtig. Der Grund dafür ist einfach: Ein Datensatz mit einer endlichen Varianz wird zu einer Gaußschen Kurve, solange es sich um einen bestimmten Datensatz mit unabhängigen Merkmalen handelt, der wachsen kann.
Diese „Normalverteilung“ ist daher das vorherrschende Wahrscheinlichkeitsgesetz im Bereich der Statistik. Sie entspricht vielen natürlichen Phänomenen wie Alter, Körpergröße, Schulleistungen, IQ oder sogar der Summe zweier Würfel.
Wenn ein Datensatz der Gaußschen Verteilung folgt, können viele Methoden der parametrischen Statistik angewendet werden. Einige Data-Science-Methoden zur Anpassung von Parametern wie die Unsicherheitsfortpflanzung und die kleinsten Quadrate können nur auf Datensätze angewendet werden, die einer Gaußschen Kurve folgen.
Außerdem sind die Schlussfolgerungen, die aus der Analyse von Gaußschen Kurven gezogen werden, intuitiv und einfach einem Publikum zu erklären, auch wenn es nur Grundkenntnisse in Statistik hat.
Warum ist die Gaußsche Gesetzmäßigkeit beim Machine Learning wichtig?
Beim Machine Learning sind die Kostenfunktion oder die potenziellen Werte eines Neurons die Größen, die als Summe vieler unabhängiger Prozesse erwartet werden. Dabei kann es sich um die Input-Merkmale oder auch um das Aktivierungspotenzial der letzten Schicht handeln.
Diese potenziellen Werte des künstlichen Neurons folgen in der Regel der Gaußschen Gesetzmäßigkeit oder fast der Gaußschen Gesetzmäßigkeit. Wenn die Gaußsche Natur eines Datasets bekannt ist, kann man weiterhin parametrische Statistiken verwenden.
Wie kann man eine Verteilung in eine Gaußsche Kurve umwandeln?
Wie du vielleicht schon bemerkt hast, ist die Gaußsche Kurve sowohl in der Data Science als auch im Machine Learning sehr nützlich. Glücklicherweise ist es möglich, jede beliebige Verteilung in eine Gaußsche Verteilung umzuwandeln.
Wichtig ist, dass du die richtige Transformation benutzt. Du kannst z. B. die Abtastfrequenz vervielfachen oder eine Logarithmusfunktion verwenden, um sie zu verringern. Durch die Transformation wird die Kurve gaußförmig.
Der Ansatz der „Box-Cox-Transformation“ wurde von George Box und Sir David Cox in einem 1964 veröffentlichten Artikel mit dem Titel „An Analysis of Transformations“ demokratisiert. Dabei werden nicht-normale abhängige Variablen in eine Gaußsche Form transformiert. Seitdem wurden weitere Familien von „Power Transformations“ erfunden.
Warum ist die Gaußsche Regel so beliebt?
Die Gaußsche Wahrscheinlichkeitsverteilung ist die von Machine Learning- und Deep Learning-Ingenieuren am häufigsten verwendete Wahrscheinlichkeitsverteilung. Es ist eines der häufigsten Wahrscheinlichkeitsgesetze, und das hat mehrere Gründe.
Zunächst einmal folgen viele Prozesse in der Natur und in den Sozialwissenschaften natürlicherweise diesem Verteilungsmodell. Selbst wenn die Prozesse nicht diesem Modell folgen, ist die Gaußsche Verteilung die beste Modellannäherung für diese Prozesse.
Als Beispiele können die Größe, der Blutdruck oder die Intelligenz eines erwachsenen Menschen genannt werden. Dasselbe gilt für die Position eines Teilchens bei der Streuung oder für Messfehler. Dieses Gesetz ist also in der realen Welt vorherrschend.
Der zweite Grund ist ein mathematischer, und zwar der zentrale Grenzwertsatz. Dieses Theorem besagt, dass, wenn man eine große Anzahl unabhängiger Zufallsvariablen hinzufügt, ohne die ursprüngliche Verteilung dieser Variablen zu berücksichtigen, ihre normalisierte Summe zu einer Gaußschen Verteilung tendiert.
Beispielsweise tendiert die Verteilung der Gesamtstrecke, die bei einem Spaziergang zurückgelegt wird, systematisch zu einer Gaußschen Wahrscheinlichkeitsverteilung.
Nach diesem Theorem können viele der wissenschaftlichen und statistischen Methoden, die speziell für Gaußsche Modelle entwickelt wurden, auch auf viele Probleme angewendet werden, die andere Arten von Verteilungen beinhalten können. Es erklärt auch, warum viele Naturphänomene dieser Verteilung folgen.
Schließlich verdankt die Gaußsche Verteilung ihre Popularität ihrer Einfachheit. Für jede Annäherung an ein Gaußsches Modell kann eine komplexere Verteilung mit mehreren Parametern verwendet werden, die eine bessere Annäherung bietet, aber die Einfachheit wird oft bevorzugt.
Ihr Mittelwert, ihr Median und ihr Modus sind alle gleich. Die vollständige Verteilung kann mit nur zwei Parametern angegeben werden: dem Mittelwert und der Varianz.
Wie meistere ich die Gaußsche Kurve und die Statistik?
In den Bereichen Data Science und Machine Science ist es unerlässlich, Konzepte wie Wahrscheinlichkeitsgesetze oder die Gaußsche Kurve zu beherrschen. Um diese Konzepte und alle für Data Science erforderlichen Fähigkeiten zu erwerben, kannst du dich für DataScientest entscheiden.
In unseren berufsbildenden Kursen kannst du die Berufe der Data Science wie Data Scientist, Data Analyst oder Machine Learning Engineer erlernen. Nach Abschluss des Kurses beherrschst du die Programmierung, Datenbanken, Big Data Frameworks, Machine Learning oder DataViz.
Die Lernenden erhalten ein von der Universität Sorbonne zertifiziertes Diplom und sind am Ende bereit, die Berufe der Data Science auszuüben. Von unseren Alumni haben 93 % sofort einen Job gefunden.
Alle unsere Kurse können als Bootcamp oder als Weiterbildung absolviert werden. Unser Blended-Learning-Ansatz kombiniert Fern- und Präsenzlernen.
Für die Finanzierung kannst du dich an Pôle Emploi über die AIF wenden oder dein persönliches Ausbildungskonto nutzen. Verliere keinen Moment mehr und entdecke die DataScientest-Ausbildung!