En statistique, la distribution statistique, distribution empirique ou distribution des fréquences, est un tableau qui associe des classes de valeurs obtenues lors d'une expérience à leurs fréquences d'apparition. Ce tableau de valeurs est modélisé en théorie des probabilités par une loi de probabilité.
Dans le cas général, les classes sont des intervalles de valeurs. Dans le cas de valeurs discrètes, une classe peut ne regrouper qu'une seule valeur. Pour que les calculs statistiques aient un sens, il faut que l'effectif de chaque classe soit suffisant.
La fonction quantile est une autre manière de représenter une distribution statistique. Connaître plusieurs quantiles permet de donner des propriétés sur les données, mais connaitre tous les quantiles permet de caractériser complètement la série.
Modélisation probabiliste
Une modélisation probabiliste est associée : chaque résultat est modélisé par une variable aléatoire. La distribution statistique est alors modélisée par une loi de probabilité. Plus précisément, la fréquence observée ou empirique d'appartenance à la classe peut être modélisée par une valeur théorique qui est la probabilité de l'évènement : "appartenir à la classe ". La modélisation se justifie par le fait que plus l'échantillon est grand plus la distribution statistique est proche (au sens des lois de probabilités) de la loi de probabilité.
Lors d'un échantillonnage de observations, si on observe valeurs, la fréquence obtenue est alors : .
Cette valeur est modélisée par où est une variable aléatoire de loi binomiale qui représente le nombre d'individus observés dans la classe considérée.