La divergence de Kullback-Leibler est une mesure de similarité entre deux distributions de probabilité, très utilisée pour l’analyse de données et le Machine Learning. Découvrez tout ce que vous devez savoir !
Notre histoire débute aux États-Unis dans les années 1950. C’est à cette époque que deux statisticiens américains s’intéressent à la théorie de l’information et à l’analyse statistique, et décident de chercher une mesure permettant de quantifier la différence entre deux distributions de probabilité.
Né en 1907 en Pologne, Solomon Kullback a émigré aux États-Unis avec sa famille durant son enfance. Il a ensuite poursuivi ses études à l’Université du Michigan, où il a obtenu son doctorat en mathématiques.
Par la suite, il a travaillé en tant que statisticien et chercheur dans diverses institutions dont le National Bureau of Standards et la Columbia University.
De son côté, Richard Leibler est à New York en 1926. Il a obtenu son doctorat en statistiques à l’Université de Columbia, et a également travaillé dans diverses institutions de recherche. Ce spécialiste a notamment contribué au développement des méthodes statistiques pour la biologie.
En 1951, dans un article intitulé « On Information and Sufficiency », Kullback présente pour la première fois un concept qui marquerait à tout jamais le domaine de l’analyse de données : la divergence de Kullback-Leibler.
Qu’est-ce que la divergence de Kullback-Leibler ?
Il s’agit d’une mesure de similarité définie pour deux distributions de probabilité, qu’elles soient discrètes ou continues.
Formellement, la divergence de Kullback-Leibler entre deux distributions de probabilité discrètes P et Q est donnée par « D(P||Q) = Σ P(i) * log(P(i) / Q(i)) ».
La formule est toutefois légèrement différente pour les distributions de probabilité continues : « D(P||Q) = ∫ P(x) * log(P(x) / Q(x)) dx ».
Cette divergence permet de mesurer la dissimilarité entre deux distributions, en termes d’information manquante ou de coût pour représenter une distribution à l’aide d’une autre. Plus elle est grande, plus les deux distributions sont différentes.
À quoi sert cet outil d'analyse ?
Près d’un siècle après son invention, la divergence de Kullback-Leibler est utilisée dans divers domaines de l’analyse de données.
L’une de ses utilisations les plus courantes est la mesure de qualité de modèle dans les problèmes de classification et de prédiction.
En comparant la distribution réelle des données avec la distribution prédite par un modèle, elle permet d’évaluer à quel point le modèle représente fidèlement les données observées.
Elle peut donc être utilisée pour sélectionner le meilleur modèle parmi plusieurs candidats, ou pour évaluer les performances d’un modèle existant.
Autre domaine d’application : la détection de changements. On utilise la divergence de Kullback-Leibler pour comparer les distributions de probabilité avant et après un événement donné, pour repérer les changements dans les séries temporelles.
Par exemple, dans la surveillance environnementale, elle peut être utilisée pour détecter l’évolution des niveaux de pollution ou les variations des conditions météorologiques.
En outre, cette mesure est couramment employée pour comparer des distributions empiriques. Dans les secteurs comme la bio-informatique, elle permet par exemple d’estimer la similitude entre les profils d’expression génique.
Ceci permet d’identifier des gènes ou des voies biologiques associés à des maladies spécifiques. De même, dans la recherche d’information, il est possible de comparer des distributions de termes dans des documents pour trouver les éléments pertinents.
Conclusion : une méthode de comparaison pour les Data Analysts
La mesure de similarité entre distributions de probabilité est un pan essentiel de l’analyse de données, et la divergence de Kullback-Leibler est couramment utilisée à cet effet.
En permettant d’évaluer la différence entre deux distributions de probabilité, elle a rapidement attiré l’attention des chercheurs et reste encore aujourd’hui une mesure populaire dans divers de domaines tels que l’analyse de données et l’apprentissage automatique.
Afin d’apprendre à maîtriser toutes les techniques et outils d’analyse de données et Machine Learning, vous pouvez choisir les formations DataScientest.
Nos différents cursus vous permettent d’acquérir toutes les compétences pour exercer les professions de Data Analyst, Data Scientist, Data Engineer, Data Product Manager ou encore ML Engineer.
Vous découvrirez le langage Python et ses bibliothèques, les bases de données, la Business Intelligence, la DataViz, et les différentes techniques d’analyse et de Machine Learning.
Toutes nos formations s’effectuent à distance, et permettent de recevoir une certification professionnelle grâce à nos partenariats avec les universités de prestige et les fournisseurs de cloud comme AWS et Azure.
En outre, notre organisme est reconnu par l’État et éligible au Compte Personnel de Formation pour le financement. Découvrez DataScientest !
Vous savez tout sur la divergence de Kullback-Leibler. Pour plus d’informations sur le même sujet, découvrez notre guide complet sur le test de Kolmogorov-Smirnov et notre dossier sur le métier de Data Analyst.