La loi hypergéométrique de paramètres associés , et est une loi de probabilité discrète, décrivant le modèle suivant :
On tire simultanément (ou successivement sans remise (mais cela induit un ordre)) boules dans une urne contenant boules gagnantes et boules perdantes (avec , soit un nombre total de boules valant = ). On compte alors le nombre de boules gagnantes extraites et on appelle la variable aléatoire donnant ce nombre.
Les valeurs pouvant être prises sont les entiers de 0 à . La variable suit alors la loi de probabilité définie par[1]
(probabilité d'avoir succès).
Cette loi de probabilité s'appelle la loi hypergéométrique de paramètres et l'on note .
Il est nécessaire que soit un réel compris entre 0 et 1, que soit entier et que . Lorsque ces conditions ne sont pas imposées, l'ensemble des possibles est l'ensemble des entiers entre et .
Exemple simple
Un lac renferme une centaine de poissons dont un quart sont des brochets. On pêche 10 poissons ; la loi du nombre de brochets dans la prise est .
Donc un maximum de chances pour 2 ou 3 brochets. D'ailleurs, l'espérance du nombre de brochets vaut 10/4 = 2,5.
Calcul de la loi de probabilité
Il s'agit d'un tirage simultané (c'est-à-dire non ordonné et sans remise, la loi de probabilité resterait la même si l'on décidait d'ordonner le tirage car cela reviendrait à multiplier par le numérateur et le dénominateur de la quantité ) de éléments parmi , tirage que l'on considère comme équiprobable.
La combinatoire permet de dire que le cardinal de l'univers est .
Tirage
Resté dans l'urne
Total
Succès
Échecs
Total
L'évènement (voir tableau) représente le cas où l'on a tiré boules gagnantes parmi et boules perdantes parmi . Le cardinal de cet événement est donc .
La probabilité de l'évènement est donc .
Remarque : comme pour toute densité de probabilité, la somme des vaut 1, ce qui prouve l'identité de Vandermonde.
Espérance, variance et écart type
L'espérance d'une variable aléatoire suivant une loi hypergéométrique de paramètres , est la même que celle d'une variable binomiale de paramètres : .
Démonstration
On se donne :
(si on se rapporte à un modèle d'urnes à tirage simultané, c'est-à-dire non ordonné et sans remise. On a donc : le nombre de boules de type "réussite" et : le nombre de boules de type "échec".)
Numérotons de 1 à les boules de type "réussite" et définissons pour tout compris entre 1 et l'événement :
.
Comme le nombre total de boules de type "réussite" tirées est
Évaluons maintenant . En passant au complémentaire,
qui est la probabilité de ne jamais tirer une boule donnée.
Donc
On en conclut donc que
En rappelant que qui est exactement la probabilité d'avoir un succès, on a bien .
La variance d'une variable aléatoire suivant une loi hypergéométrique de paramètres est , dont on remarque qu'elle tend vers la variance de la variable binomiale précédente lorsque tend vers l'infini.
Lorsque tend vers l'infini, la loi hypergéométrique converge vers une loi binomiale de paramètres et . D'ailleurs, intuitivement, pour grand, tirer simultanément boules revient à effectuer fois une épreuve de Bernoulli dont la probabilité de succès serait ( est la proportion de boules gagnantes dans l'ensemble des boules), car il est très peu probable de retomber sur la même boule, même si on la replace dans l'urne.
Démonstration de la convergence vers la loi binomiale
On décompose en produit de trois termes :
Pour le premier terme :
Pour , on a l'équivalent :
et l'on obtient
Le même raisonnement pour le second terme permet d'obtenir : .
Enfin, pour le troisième terme : .
En conclusion, on a :
Il s'agit bien d'une loi binomiale de paramètres .
En pratique, on peut approcher la loi hypergéométrique de paramètres par une loi binomiale de paramètres dès que , c'est-à-dire lorsque l'échantillon est 10 fois plus petit que la population .
Un exemple très classique de ce remplacement concerne les sondages. On considère fréquemment un sondage de personnes comme sondages indépendants alors qu'en réalité le sondage est exhaustif (on n'interroge jamais deux fois la même personne). Comme (nombre de personnes interrogées) < (population sondée)/10, cette approximation est légitime.