En statistique, l'échantillonnage aléatoire simple (EAS) consiste à prélever aléatoirement un sous-ensemble d'individus (l'échantillon) à partir d'un ensemble plus grand (la population) de sorte que chaque individu ait la même probabilité de faire partie de l'échantillon. De plus, chaque sous-ensemble d'individus de même taille a la même probabilité de former l'échantillon[1].
L'échantillonnage aléatoire simple est une méthode de base qui fait souvent partie de plans d'échantillonnage plus complexes, tels que l'échantillonnage stratifié ou par grappes[2].
Présentation générale
L'idée fondamentale de l'échantillonnage aléatoire simple est que chaque groupe avec le même nombre d'individus a la même probabilité d'être choisi. Par exemple, supposons que personnes souhaitent assister à un concert, mais qu'il y ait seulement billets disponibles. Une manière de distribuer ces billets de façon équitable serait de donner à chaque personne un numéro allant de à et de réaliser des tirages aléatoires jusqu'à ce que tirages aient été réalisés. Cette procédure peut être réalisée avec ou sans remplacement des numéros.
Dans le cas de petites populations et souvent pour de plus grandes populations également, l'échantillonnage est typiquement réalisé sans remplacement, où un individu dans la population ne peut pas être sélectionné plus d'une fois. Dans le cadre de l'exemple ci-haut, cela signifierait qu'une fois qu'un numéro serait sorti, il serait retiré des tirages subséquents. Une des conséquences de cette façon de faire est que la probabilité d'un individu d'être sélectionné n'est plus indépendante d'un tirage à l'autre, car elle dépend des tirages précédents. Cependant, puisque que la probabilité conjointe qu'un sous-ensemble d'individus soit choisi ne dépend pas de l'ordre des tirages, ce fait ne pose généralement pas problème d'un point de vue mathématique. Dans ce cas, on peut donner la probabilité qu'un individu soit choisi comme étant:
soit la proportion d'individus de la population inclus dans l'échantillon[3].
L'échantillonnage aléatoire simple avec remplacement permet quant à lui que chaque individu soit tiré de nouveau, de sorte que chaque tirage soit indépendant des précédents. Dans l'exemple ci-haut, cela voudrait dire qu'après qu'un numéro ait été choisi, il serait réintégré à l'ensemble des numéros pouvant sortir. Il serait alors possible qu'un numéro soit tiré plus d'une fois et qu'une personne remporte plus d'un billet pour le concert. La probabilité qu'un individu apparaisse au moins une fois dans l'échantillon peut alors être exprimée ainsi:
Si on considère que la probabilité qu'un individu donné sorte à un tirage est de , que celle de ne pas être tiré est dès lors , et que les tirages sont indépendants, on a donc défini à partir de la probabilité du complément de l'évènement où l'individu n'est choisi pour aucun des tirages.
L'échantillonnage aléatoire simple sans remplacement est généralement plus fréquent que sa version avec remplacement, et est considéré comme une méthode de référence pour déterminer l'efficacité relative d'autres méthodes d'échantillonnage[3],[4]. De plus, lorsque l'échantillon est petit en comparaison de la population, les approches avec et sans remplacement ont des probabilités pour la sélection d'un individu qui sont proches l'une de l'autre, car il est alors peu probable qu'un individu soit sélectionné plus d'une fois.
Avantages et inconvénients
L'échantillonnage aléatoire simple est une méthode sans biais[3]. L'échantillon est donc généralisable à l'ensemble de la population à l'étude. De plus, cette méthode repose sur des fondements théoriques solides et bien établis, ce qui permet de faciliter la réalisation d'un plan d'échantillonnage (par exemple en déterminant la taille de l'échantillon nécessaire à l'étude). Cette méthode requiert également peu de connaissances spécialisées au sujet de la population étudiée.
Cependant, un EAS requiert une base de sondage complète, soit un registre complet des individus dans la population étudiée avec un moyen approprié de joindre chacun d'entre eux[3]. De plus, même si un moyen de contacter chaque individu est théoriquement connu, il peut être couteux et peu pratique de le faire en réalité, par exemple lorsque les membres de la population sont très dispersés géographiquement. Dans ce cas, l'échantillonnage par grappes est une possibilité.
Une autre possibilité est que l'échantillon, bien que sans biais et généralisable à l'ensemble de la population, sous-représente certains sous-groupes hétérogènes entre eux. Si des données supplémentaires sont disponibles sur la population, cette dernière peut alors être divisée en strates relativement homogènes de manière à ce qu'une proportion suffisante de l'échantillon provienne de chaque strate. Cette approche revient à effectuer un échantillonnage stratifié.
Échantillon aléatoire ou probabiliste
Une méthode d'échantillonnage où chaque individu a la même chance d'être sélectionné dans l'échantillon est dite aléatoire ou probabiliste. Tous les échantillons aléatoires simples sont probabilistes, mais la réciproque n'est pas vraie. En effet, un EAS implique non seulement des probabilités égales de sélection pour les individus, mais aussi une même probabilité de sélection des échantillons de même taille.
Selon cette définition, l'échantillonnage par grappes peut être aléatoire, mais non aléatoire simple. Considérons l'exemple d'une enseignante dont la classe comporte 6 colonnes et 5 rangées d'élèves. Si elle souhaite former un échantillon de 6 élèves, elle pourrait choisir une rangée au hasard. Chaque étudiant a la même chance d'être sélectionné, soit . L'enseignante ne pourra cependant jamais choisir 3 élèves dans une rangée et 3 dans une autre: cet échantillon est exclu.
L'échantillonnage systématique est aussi probabiliste. Avec cette méthode, la base de sondage est complète, et elle est ordonnée. On choisit une unité au hasard dans la base, puis on interroge chaque -ième unité subséquente. On pourrait imaginer qu'un chercheur interroge chaque personne à la sortie d'un concert dont le numéro du billet finit par un chiffre au hasard entre 0 et 9. Il pourrait alors choisir les personnes dont le billet est 2, 12 et 22 ou 5, 15 et 25, mais pas 2, 15 et 23. Chaque personne a 1 chance sur 10 d'être incluse, mais certains groupes sont exclus en tant qu'échantillons.
La nuance entre échantillon aléatoire et échantillon aléatoire simple est importante, car un EAS est souvent plus représentatif de la population. Dans le premier exemple ci-haut, on pourrait imaginer que les étudiants assis à la dernière rangée de la classe sont moins motivés à écouter l'enseignante. Dans le deuxième, il est possible que chaque billet finissant par 0 donne accès à une loge privée dans la salle de concert. Si on choisit ces échantillons, ils sont alors peu représentatifs de la population.
En pratique, il arrive souvent que des méthodes d'échantillonnage probabiliste soient associées à un EAS. Un exemple serait de choisir quelques grappes, comme quelques écoles dans un quartier donné, puis de tirer un échantillon aléatoire simple dans chaque grappe (pour cet exemple, quelques étudiants par école). Il s'agit d'un plan d'échantillonnage à plusieurs degrés.
Échantillonnage avec catégories discrètes
Si la population est constituée d'individus de catégories discrètes, comme pour une population constituée uniquement de boules bleues, rouges et noires, le nombre d'unités choisies dans chaque catégorie varie selon l'échantillon et peut donc être vu comme une variable aléatoire. La loi de probabilité de chacune de ces variables aléatoires pour un échantillon aléatoire simple avec remplacement est une loi binomiale, tandis qu'il s'agit d'une loi hypergéométrique dans le cas sans remplacement[5]. Pour le cas de la probabilité conjointe d'observer un nombre donné pour chaque catégorie simultanément, ce sont les lois multinomiale et hypergéométrique multivariée qu'on peut utiliser, respectivement.
↑Daniel S. Yates, David S. Moore et Daren S. Starnes, The practice of statistics: TI-83/84/89 graphing calculator enhanced, W.H. Freeman, (ISBN978-0-7167-7309-2)
↑Steven K. Thompson, Sampling, John Wiley & Sons, coll. « Wiley series in probability and statistics », (ISBN978-1-118-16293-4)