Une courbe gaussienne est une représentation visuelle de données suivant la loi gaussienne. Découvrez la définition complète, et pourquoi cette loi de probabilités est essentielle en Data Science et en Machine Learning.
En statistiques, une distribution est une collection de valeurs et de fréquence d’une observation. Par exemple, cette observation peut être l’âge d’une population.
Dans le cas d’une loi gaussienne, aussi appelée loi normale, les données forment une courbe en cloche. Cela signifie que les valeurs sont plus proches de moyennes que d’extrêmes.
Il s’agit d’une courbe gaussienne. Elle tire son nom du mathématicien et physicien Carl Friedrich Gauss.
Il existe toutefois d’autres lois couramment utilisées. On peut citer la loi binomiale et la loi Poisson. Alors pourquoi la loi gaussienne est-elle la plus utilisée ?
Pourquoi la loi gaussienne est essentielle en Data Science ?
La loi gaussienne est omniprésente. La raison est simple : un ensemble de données avec une variance finie devient une courbe gaussienne, tant qu’il s’agit d’un ensemble de données avec des caractéristiques indépendantes et pouvant croître.
Cette loi « normale » est donc la loi de probabilités prévalente dans le domaine des statistiques. Elle correspond à de nombreux phénomènes naturels comme l’âge, la taille, les résultats scolaires, le QI, ou même la somme de deux dés.
Si un ensemble de données suit la loi gaussienne, il est possible d’utiliser de nombreuses méthodes de statistiques paramétriques. Certaines méthodes de Data Science pour l’ajustement de paramètres comme la propagation d’incertitude et les moindres carrés ne peuvent être appliquées que sur des datasets suivant une courbe gaussienne.
De plus, les conclusions tirées à partir d’analyses de courbes gaussiennes sont intuitives et simples à expliquer à une audience, même si ses notions en statistiques sont rudimentaires.
Pourquoi la loi gaussienne est-elle importante en Machine Learning ?
Dans le Machine Learning, la fonction coût ou les valeurs potentielles d’un neurone sont les quantités attendues comme la somme de nombreux processus indépendants. Il peut s’agir des caractéristiques d’input, ou encore du potentiel d’activation de la dernière couche.
Ces valeurs potentielles de neurone artificiel suivent généralement la loi gaussienne, ou presque. Si la nature gaussienne d’un dataset est connue, il est alors possible de continuer à utiliser des statistiques paramétriques.
Comment transformer une distribution en courbe gaussienne ?
Vous l’aurez compris, la courbe gaussienne est très utile aussi bien en Data Science qu’en Machine Learning. Fort heureusement, il est possible de transformer n’importe quelle distribution en distribution gaussienne.
L’important est d’utiliser la transformation adéquate. Il peut s’agir par exemple de multiplier la fréquence d’échantillons ou encore d’utiliser une fonction logarithme pour la réduire. Grâce à la transformation, la courbe devient gaussienne.
L’approche de « transformation Box Cox » fut démocratisée par George Box et Sir David Cox dans un article intitulé » An Analysis of Transformations » publié en 1964. Elle consiste à transformer des variables dépendantes non-normales dans une forme gaussienne. Depuis lors, d’autres familles de « power transformations » ont été inventées.
Pourquoi la loi gaussienne est-elle si populaire ?
La loi gaussienne est la plus utilisée par les ingénieurs Machine Learning et Deep Learning. Il s’agit de l’une des lois de probabilité les plus communes, et ceci s’explique par plusieurs raisons.
Tout d’abord, de nombreux processus dans la nature et les sciences sociales suivent naturellement ce modèle de distribution. Même lorsque les processus ne suivent pas ce modèle, la loi gaussienne constitue la meilleure approximation de modèle pour ces processus.
En guise d’exemple, on peut citer la taille, la pression sanguine ou l’intelligence d’un adulte humain. Il en va de même pour la position d’une particule en diffusion, ou pour les erreurs de mesure. Cette loi est donc prévalente dans le monde réel.
La seconde raison est mathématique, et il s’agit du théorème de la limite centrale. Selon ce théorème, lorsqu’on ajoute un nombre important de variables aléatoires indépendantes, sans tenir compte de la distribution originale de ces variables, leur somme normalisée tend vers une distribution gaussienne. Par exemple, la distribution de la distance totale couverte lors d’une promenade tend systématiquement vers une distribution de probabilité gaussienne.
Selon ce théorème, un grand nombre de méthodes scientifiques et statistiques développées spécifiquement pour les modèles gaussiens peuvent aussi être appliqués à de nombreux problèmes pouvant impliquer d’autres types de distributions. Il explique aussi pourquoi de nombreux phénomènes naturels suivent cette distribution.
Enfin, la loi gaussienne doit sa popularité à sa simplicité. Pour chaque approximation de modèle gaussienne, il est possible d’utiliser une distribution multi-paramètres plus complexe offrant une meilleure approximation, mais la simplicité est souvent privilégiée.
Sa moyenne, sa médiane et son mode sont tous les mêmes. La distribution complète peut être spécifiée en utilisant seulement deux paramètres : la moyenne et la variance.
Comment maîtriser la courbe gaussienne et les statistiques ?
Il est essentiel de maîtriser les concepts comme les lois de probabilités ou la courbe gaussienne dans les domaines de la Data Science et du Machine. Pour acquérir ces notions, et toutes les compétences requises pour la science des données, vous pouvez opter pour DataScientest.
Nos formations professionnalisantes vous permettent d’apprendre les métiers de la Data Science comme Data Scientist, Data Analyst ou Machine Learning Engineer. A l’issue du parcours, vous maîtriserez la programmation, les bases de données, les frameworks Big Data, le Machine Learning ou encore la DataViz.
Les apprenants reçoivent un diplôme certifié par l’Université de la Sorbonne, et sont fin prêts à exercer les métiers de la Data Science. Parmi nos alumnis, 93% ont trouvé un emploi immédiatement.
Toutes nos formations peuvent être effectuées en Bootcamp ou en Formation Continue. Notre approche Blended Learning combine apprentissage à distance et en présentiel.
Pour le financement, vous pouvez vous tourner vers Pôle Emploi via l’AIF, ou utiliser votre compte personnel de Formation. Ne perdez plus un instant, et découvrez les formations DataScientest !
Vous savez tout sur la courbe gaussienne. Découvrez notre dossier généraliste sur la Data Science, et notre introduction au Machine Learning.