L’Analyse de la variance (ANOVA) : un outil basique pour l’analyse des données

-
5
 m de lecture
-
anova

L’Analyse de la variance (analysis of variance) est une technique statistique simple et très utilisée afin d’examiner la relation entre deux (ou plusieurs) variables et notamment entre une variable explicative et une variable cible (ou dépendante). L’ANOVA nous permet de comprendre si la variable explicative influence la variable cible et comment.

L’ANOVA est donc mobilisée dans des contextes divers et sur des problématiques variées, en partant du marketing jusqu’aux études scientifiques dans plusieurs domaines (médecine, biologie, démographie etc..). Nous pouvons imaginer des cas concrets où l’ANOVA peut être utilisée.

Le directeur d’une chaîne de 80 magasins souhaite savoir si une augmentation de la luminosité des affiches publicitaires peut avoir un impact positif sur les ventes. Il divise ses magasins en 4 groupes. Au premier groupe, il demande de ne pas modifier la luminosité des affiches publicitaires. En revanche, il demande au deuxième, troisième et quatrième groupes de magasins d’augmenter la luminosité des affiches publicitaires respectivement de 20 %, 40 % et  60%. Un mois plus tard, il calcule la moyenne des ventes pour chacun des quatre groupes. Il constate des différences : le niveau de luminosité des affiches semble avoir favorisé les ventes.

Des démographes souhaitent étudier l’effet du niveau scolaire (niveau inférieur au baccalauréat, baccalauréat, licence, master) sur les revenus. À partir d’une étude nationale comprenant 150000 individus dans toute la France, ils calculent la moyenne des revenus pour chacun des ces niveaux scolaires. Ils constatent que les moyennes diffèrent et que le niveau scolaire semble avoir un effet positif sur les revenus. 

Comment peuvent, le directeur de la chaîne de magasins et les démographes être sûrs qu’il existe une relation significative entre les variables qu’ils examinent (luminosité des affiches publicitaires et ventes d’une part et niveau d’études et revenus d’autre part) et donc que les différences qu’ils ont détecté sont réelles ? Heureusement ils peuvent compter sur un test statistique développé en 1918 par le biologiste et statisticien britannique Fischer : l’ANOVA.

Qu' est-ce que l’ANOVA ?

L’ANOVA est une technique de statistique inférentielle élaborée pour tester l’existence d’une relation significative entre deux variables dans deux ou plusieurs groupes. En particulier, elle est mobilisée quand nous souhaitons savoir si une variable explicative (dans nos exemples le niveau de luminosité des affiches et le niveau d’études) influence une variable dépendante (dans nos exemples les ventes des magasins et les revenues). Il est important de noter que dans le cas de l’ANOVA la variable explicative est une variable catégorielle, à savoir une variable qui contient des valeurs une qualité ou une caractéristique qui n’est pas quantifiable. D’autre part, la variable cible est une variable quantitative, à savoir une variable qui peut se traduire par des valeurs numériques. 

L’ANOVA suit la même logique d’un test de comparaisons entre moyennes tel que le T-test mais, contrairement au T-test, elle n’est pas bornée à l’analyse de deux groupes : au contraire elle peut prendre en considération une multiplicité de groupes : c’est bien cela sa force.

L’objectif de l’ANOVA est de rejeter l’hypothèse nulle qui consiste à dire qu’il n’existe pas une différence significative entre les groupes qu’on examine et de conserver l’hypothèse alternative consistant à affirmer que les différences détectées entre les groupes sont bien réelles. Pour ce faire, comme son nom l’indique, l’ANOVA met en relation la variance interclasse avec la variance intraclasse. La variance interclasse indique la variance qui existe entre les groupes, à savoir, pour revenir à l’un des nos exemples, la variance entre les différents groupes définis par leur niveau d’études. La variance intraclasse indique la variance au sein de chaque groupe défini par son niveau d’études.

L’idée fondamentale de l’ANOVA est que plus le rapport entre la variance interclasse et la variance intraclasse est grand plus sont grandes les chances que les différences constatées entre les groupes sont réelles. Autrement dit, si la variance interclasse est plus grande que la variance intraclasse, cela nous permet de penser que les différences observées sont réellement liées à l’appartenance aux différents groupes : nous pouvons alors rejeter l’hypothèse nulle. Le rapport entre la variance interclasse et la variable intra-classe est exprimé par le F ratio.

Comment calculer le F Ratio ?

Afin de calculer le F ratio nous pouvons décomposer notre problème d’analyse de la variance en plusieurs étapes. Nous commençons par calculer la variance interclasse (à travers les groupes) et la variance intraclasse (au sein des groupes). 

Pour ce faire nous devons calculer la somme des carrés des écarts (SCE) entre les groupes.

La formule est la suivante :

SCEInterclasse = \sum_{k=1}^{n} u_{k} \times (\overline{Y_{k}}- \overline{Y})^{2}

k = le nombre des différents groupes
\overline{Y_{k}} = la moyenne d'un groupe
\overline{Y} = la moyenne globale

La SCEInterclasse peut aussi être comprise comme la variation totale dans la variable dépendante qui peut être expliqué par la variable indépendante.

Nous allons par la suite calculer la somme des carrés intraclasse, à savoir la somme des carrés des écarts au sein des groupes. Nous allons l’appeler SCEIntraclasse. 

La formule pour calculer la somme des carrés des écarts au sein de chaque groupe est la suivante :

SCEIntraclasse = \sum_{k=1}^{n} u_{k} \times (\overline{Y_{i}}- \overline{Y_{k}})^{2}

Où :

\overline{Y_{i}} = chaque score individuel au sein du groupe
\overline{Y_{k}} = la moyenne du groupe

Ensemble, la variance interclasse et la variance interclasse composent la variance totale dans nos observations. Celle-ci peut être représenté ainsi : 

SCEtotale = SCEInterclasse + SCEIntraclasse

Par la suite, nous pouvons calculer nos degrés de liberté. 

Pour SCEInterclasse les degrés de liberté sont déterminés par :

DDLinterclasse = K – 1

K est le nombre de groupes.

Pour SCEIntraclasse les degrés de liberté sont déterminés ainsi :

DDLintraclasse = N – k

Où 

  • N = le nombre total d’observations 
  • k = le nombre de groupes

Nous pouvons maintenant calculer la moyenne des carrés interclasse en divisant la SCEinterclasse par les DDL interclasse. 

Moyenne des carrés interclasse = SCEinterclasse / DDLInterclasse

Nous pouvons procéder de la même manière pour calculer la moyenne des carrés intraclasse : 

Moyenne des carrés intraclasse = SCEinterclasse / DDLIntraclasse

Nous arrivons à la fin de notre parcours et nous pouvons enfin calculer le F ratio (F de Fisher)

F ratio =  Moyenne des carrés interclasse / Moyenne des carrés intraclasse

Un F ratio élevé indique que la variance interclasse est plus grande que la variance intraclasse. Cela fait augmenter les chances de rejeter l’hypothèse nulle et de pouvoir affirmer qu’il existe bien une différence entre nos groupes d’intérêt. 

Il est important de signaler que pour effectuer une ANOVA sur nos données, nous devons vérifier que celles-ci respectent un certain nombre de conditions et notamment la normalité des distributions et l’indépendance de nos échantillons.

Plus précisément, il est nécessaire que la variable quantitative examinée ait une distribution normale : cela est particulièrement important pour des échantillons de petite taille. 

Nous devons en outre examiner l’homoscédasticité : en effet pour pouvoir réaliser une ANOVA il est nécessaire que tous les groupes étudiés aient une variance égale (ou similaire).

Enfin, avant de réaliser une ANOVA nous devons vérifier que les observations soient indépendantes.

Two-Way ANOVA et tests post-hoc

Les exemples d’ANOVA que nous avons présentés jusqu’ici étudient la relation entre une variable explicative (le niveau de la luminosité des affiches d’une part et le niveau d’études de l’autre) et une variable dépendante : cette version simple de l’ANOVA est appelé aussi one-way anova ou anova à un facteur. Or dans une grande majorité de problématiques nous sommes intéressés à examiner l’effet de deux ou plusieurs variables sur la variable dépendante. Nous pouvons nous demander par exemple si le sexe des individus, outre que leur niveau d’étude, impacte leurs revenus. Dans ce cas, nous utiliserons une version plus complexe de notre ANOVA : la two-way anova. En effet, quand nous avons une seule variable explicative nous pouvons calculer un seul F ratio. Cependant quand des différences significatives sont produites par plusieurs variables indépendantes nous devons calculer plusieurs F ratio. La two-way anova nous permet ainsi d’évaluer l’effet principale de chacune des variables indépendantes mais aussi d’évaluer s’il existe une interaction entre elles.  

L’ANOVA (One-way ou two-way) nous permet donc de tester l’existence d’une différence significative entre deux ou plusieurs groupes. Cependant elle ne nous permet pas de savoir où est-ce que cette différence se situe. Autrement dit, en revenant à l’exemple portant sur le niveau de luminosité des affiches publicitaires, si nous constatons qu’une augmentation de la luminosité des affiches affecte de manière positive les ventes, nous pouvons nous demander, quel niveau de luminosité est responsable de cette augmentation : en effet nous pouvons imaginer que seulement une augmentation de 60% de la luminosité des affiches produit un effet positif sur les ventes et qu’ en revanche les augmentations de 20% et de 40% ont un effet nul. Afin de vérifier ce type d’hypothèses nous devons alors mobiliser des tests post-hoc. Les tests post-hoc les plus utilisés sont les tests HSD de Tukey et la correction de Bonferroni.

L’ANOVA (one-way ou two-way) combinée avec ces tests permet d’avoir une bonne compréhension de la relation qui existe entre nos variables d’intérêt. Ces techniques font partie du bagage des outils qu’un Data Scientist peut mobiliser au quotidien pour comprendre ses données. Elles permettent de comprendre si une variable explicative influence une variable cible et comment. Se former à l’analyse de la variance est donc une étape importante pour entamer une carrière de Data Scientist

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?