Régression vers la moyenne

En statistique, la régression vers la moyenne décrit le phénomène suivant : si une variable est extrême à sa première mesure, elle va généralement se rapprocher de la moyenne à sa seconde mesure. Si elle est extrême à sa seconde mesure elle va tendre à être proche de la moyenne à sa première mesure[1],[2],[3]. Afin d'éviter des inférences erronées, la régression vers la moyenne doit être considérée à la base de la conception des expériences scientifiques et prise en compte lors de l'interprétation des données[4].

Exemple

On soumet une classe à un test de 100 questions auxquelles il n'y a que deux réponses possibles (vrai ou faux). Si on suppose que les élèves répondent tous purement au hasard, alors le score d'un étudiant est une réalisation d'un ensemble de variables aléatoires indépendantes et identiquement distribuées, dont l'espérance mathématique est de 50. Parmi les étudiants, certains auront un score très supérieur à 50 et d'autres un score très inférieur, par le seul effet du hasard.

Si l'on sélectionne alors les 10% ayant obtenu le meilleur score, et qu'on leur fait passer un second test auquel ils répondent à nouveau au hasard, le score moyen de ce groupe sera vraisemblablement proche de 50. Le score moyen de ces étudiants au test numéro 2 a donc régressé vers la moyenne de tous les étudiants qui ont fait le test numéro 1. Quel que soit le score d'un élève au premier test l'espérance de son score au second test est toujours de 50, puisque les réponses sont choisies au hasard.

Si maintenant les élèves ne choisissent jamais au hasard, et qu'on suppose que l'espérance du score d'un élève soit uniquement liée à sa compétence sur le sujet, alors l'espérance sera identique entre le premier et le deuxième test et on n'observera pas de régression.

En situation réelle, on sera entre ces deux extrêmes : on peut considérer que le résultat à un examen dépend à la fois des compétences de l'élève et de la chance. Dans ce cas, parmi les élèves ayant eu une note au dessus de 50/100 on trouvera de bons élèves qui n'ont pas été trop malchanceux, et de mauvais élèves qui auront eu de la chance. Lors du deuxième test, les mauvais élèves chanceux auront peu de chance de répéter leur "coup de bol", alors que les bons élèves auront une seconde occasion d'être malchanceux et sous-performer. On s'attend donc à ce que la moyenne de ce groupe des meilleurs diminue au test numéro 2 par rapport à leur moyenne au test numéro 1.

Notes et références

  1. (en) Brian Sidney Everitt, The Cambridge Dictionary of Statistics, CUP, (ISBN 0-521-81099-X).
  2. (en) Graham Upton et Ian Cook, Oxford Dictionary of Statistics, OUP, (ISBN 978-0-19-954145-4).
  3. (en) Stephen Stigler, « Regression toward the mean, historically considered », Statistical Methods in Medical Research (en), vol. 6, no 2,‎ , p. 103-114 (PMID 9261910, DOI 10.1191/096228097676361431, lire en ligne).
  4. (en) Arnaud Chioléro, Gilles Paradis, Benjamin Rich et James A. Hanley, « Assessing the Relationship between the Baseline Value of a Continuous Variable and Subsequent Change Over Time », Frontiers in Public Health (en), vol. 1,‎ , p. 29 (PMID 24350198, PMCID 3854983, DOI 10.3389/fpubh.2013.00029).