Deux cas importants de la statistique d'ordre sont les statistiques du minimum et du maximum, et dans une moindre mesure la médiane de l'échantillon ainsi que les différents quantiles.
Soit une expérience conduisant à l'observation d'un échantillon de 4 nombres, prenant les valeurs suivantes :
6, 9, 3, 8,
que l'on note selon la convention :
où le i en indice sert à identifier l'observation (par son ordre temporel, le numéro du dispositif correspondant, etc.), et n'est pas a prioricorrélée avec la valeur de l'observation.
On note la statistique d'ordre :
où l'indice (i) dénote la i-ième statistique d'ordre de l'échantillon suivant la relation d'ordre habituelle sur les entiers naturels.
Par convention, la première statistique d'ordre, notée , est toujours le minimum de l'échantillon, c'est-à-dire :
Suivant la convention habituelle, les lettres capitales renvoient à des variables aléatoires, et les lettres en bas de casse aux valeurs observées (réalisations) de ces variables.
De même, pour un échantillon de taille n, la statistique d'ordre n (autrement dit, le maximum) est
Étant donné un échantillon , les statistiques d'ordres, notées , sont donc obtenues par tri croissant.
Théorème — Si on suppose l'échantillon X indépendant et identiquement distribué selon une loi de densitéf et de fonction de répartitionF, alors la densité de la k-ème statistique d'ordre est
Démonstration
Calcul via la fonction de répartition
La fonction de répartition de la k-ème statistique d'ordre est
Autrement dit, le nombre d'éléments de l'échantillon inférieurs à x suit une loi binomiale de paramètres n et F(x), puisqu'il s'agit là de n expériences indépendantes, possédant deux issues : « être inférieur à x » et « être supérieur à x », la première des deux issues ayant pour probabilité F(x), et la deuxième issue ayant pour probabilité 1-F(x). En dérivant, on trouve une somme télescopique qui donne la densité :
car
Finalement :
Calcul direct
Lors d'une série de n expériences aléatoires indépendantes et identiques ayant chacune trois issues possibles, disons a, b, et c, de probabilités respectives pa, pb, pc, la loi jointe des nombres d'issues Na (resp. Nb, Nc ) de type a (resp. b, c) est une loi multinomiale de paramètres n et p=(pa, pb, pc ), décrite par :
Ainsi, la densité de X(k) est obtenue en reconnaissant une série de n expériences aléatoires indépendantes et identiques ayant chacune trois issues possibles, Xi ≤ x, x<Xi ≤ x+dx, et Xi > x+dx'', de probabilités respectives F(x), f(x) dx, et 1-F(x)-f(x)dx. Ainsi,
En particulier,
Cette formule peut être trouvée directement, en dérivant le résultat ci-dessous :
Pour la loi uniforme continue, la densité de la k-ème statistique d'ordre est celle d'une Loi bêta, de paramètres k et n+1-k.
Densité jointe de toutes les statistiques d'ordre
Théorème — Si on suppose l'échantillon X indépendant et identiquement distribué selon une loi de densitéf, alors la densité jointe des n statistiques d'ordre est
Démonstration
Il suffit de démontrer que pour toute fonction φ mesurable, bornée et positive ou nulle,
Mais, comme les Xi sont indépendants et possèdent des densités, on a:
Par conséquent, presque sûrement,
Finalement :
puisque et ont même densité La linéarité de l'espérance permet de conclure.
Références
Herbert Aron David et Haikady N. Nagaraja, Order Statistics, Wiley, , 3e éd., 458 p. (ISBN978-0-471-38926-2)