Test de Kolmogorov-Smirnov : Quelle est cette méthode ?

-
3
 m de lecture
-

Le test de Kolmogorov-Smirnov est une méthode très utilisée pour la comparaison de données. Découvrez l’histoire étonnante de son invention, et son utilisation de nos jours dans le domaine de la Data Science !

En 1933, Andrei Kolmogorov publie un article intitulé « Sulla determinazione empirica di una legge di distribuzione » (de la détermination empirique d’une loi de distribution).

Le mathématicien y présente la notion de distribution cumulative empirique (DCE) et de la statistique de test correspondante.

Il s’intéressait à la façon dont les données pouvaient être comparées à une distribution théorique sans supposer de forme spécifique pour la distribution.

Sa méthode était basée sur la différence maximale entre la DCE et la DCT (distribution cumulative théorique), et il proposa une statistique de test pour quantifier cette différence.

Quelques années plus tard, en 1939, Nikolai Smirnov développa totalement par hasard une approche similaire, dans son article « estimation de l’écart entre les fonctions de distribution empiriques dans deux échantillons indépendants ».

Il avait lui aussi pour objectif de proposer une méthode non paramétrique pour comparer deux échantillons de données indépendants.

De son côté, il proposait de définir une statistique de test basée sur la différence maximale entre les deux DCE des échantillons de données.

Ce n’est que lors d’une conférence de mathématiques que Kolmogorov et Smirnov se sont rencontrés par hasard. En commençant à discuter de leurs recherches respectives, ils ont réalisé qu’ils travaillaient sur des problèmes similaires de manière indépendante.

Alors qu’ils échangeaient leurs idées et leurs résultats, ils ont été très étonnés en se rendant compte que leurs méthodes et leurs formules étaient extrêmement semblables.

Surpris par cette coïncidence, les deux mathématiciens ont décidé de collaborer pour développer une approche commune. Ils ont alors combiné leurs idées et leurs expertises pour créer le « Test de Kolmogorov-Smirnov ».

Qu’est-ce que le test de Kolmogorov-Smirnov ?

Utilisé dans de nombreux domaines, le test de Kolomogorov-Smirnov est un puissant outil statistique. Il permet d’évaluer la similarité entre une distribution empirique et une distribution théorique, ou pour comparer deux distributions entre elles.

Il repose sur deux concepts clés : la DCE et la DCT. La DCE est la distribution cumulative empirique. Elle est construite à partir de données observées, et représente la proportion d’observations inférieures ou égales à une valeur donnée.

De son côté, la DCT est la distribution cumulative théorique. Elle est basée sur une distribution théorique spécifiée par l’utilisateur.

L’objectif du test est de mesurer la distance maximale (statistique de test D) entre la DCE et la DCT. On calcule D en prenant la valeur absolue de la plus grande différence entre les deux distributions cumulatives.

Plus sa valeur est élevée, plus la différence entre la distribution empirique et la distribution théorique est importante.

Afin d’évaluer la significativité du test, une valeur P est calculée. Elle représente la probabilité d’obtenir une valeur de D aussi extrême ou plus extrême que celle observée.

En outre, l’hypothèse nulle stipule que les deux distributions sont identiques et l’hypothèse alternative suggère qu’il existe une différence significative entre les deux.

On peut utiliser ce test avec un échantillon unique pour vérifier si la distribution suit une loi spécifique, ou avec deux échantillons indépendants pour comparer deux distributions différentes.

Si la valeur P est supérieure à un seuil de signification prédéfini, l’hypothèse nulle est vérifiée. Si elle est inférieure, cela prouve une différence et que les deux distributions sont incompatibles.

À quoi sert le test de Kolmogorov-Smirnov ?

Le test de Kolmogorov-Smirnov est utilisé dans de nombreux domaines comme les sciences sociales, l’économie, la biologie, la physique, l’ingénierie et bien d’autres.

Une des applications les plus courantes est l’évaluation de la normalité d’une distribution. On compare une distribution empirique à une distribution normale théorique, pour vérifier si les données présentent des déviations significatives.

Cette méthode peut aussi servir à déterminer si deux échantillons indépendants proviennent de la même population, ou s’ils ont d’importantes différences. C’est très utile dans les études comparatives, les expériences contrôlées ou les analyses de groupe.

On l’utilise également pour vérifier l’adéquation d’un modèle statistique. Le but est de vérifier si le modèle ajusté aux données reproduit fidèlement la distribution observée. Dans le cas contraire, il est possible d’identifier les lacunes ou erreurs potentielles.

Il s’agit donc d’un outil très polyvalent pour la Data Science, le Machine Learning et l’Intelligence Artificielle. On l’utilise non seulement pour comparer les performances des modèles, mais aussi pour la sélection de caractéristiques et la détection des anomalies.

Conclusion

En plus de mettre en évidence l’importance des rencontres et du hasard dans les grandes découvertes scientifiques, cette anecdote a donné naissance à un outil très utilisé encore aujourd’hui pour analyser les données de manière fiable.

Afin d’apprendre tous les méthodes et outils de Data Science, vous pouvez choisir DataScientest. Nos différentes formations vous permettent d’acquérir toutes les compétences de Data Analyst, Data Engineer, Data Scientist, Machine Learning Engineer ou encore Data Product Manager.

Vous découvrirez notamment le langage Python et ses bibliothèques, la DataViz, la Business Intelligence, l’analyse de données et l’apprentissage machine.

Tous nos programmes se complètent intégralement à distance, et notre organisme reconnu par l’État est éligible au CPF pour le financement. Grâce à un partenariat avec MINES ParisTech, les apprenants reçoivent une certification en fin de cursus. Découvrez DataScientest !

Vous savez tout sur le test de Kolmogorov-Smirnov. Pour plus d’informations sur les outils de Data Science, découvrez notre dossier sur Power BI et notre dossier sur Python.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?