En estadística, una función de distribución empírica (comúnmente llamada función de distribución empírica, FDe) es la función de distribución asociada con una medida empírica de una muestra.[1] Esta función de distribución acumulativa es una función escalonada que salta en cada uno de los valores dentro de la muestra empírica. Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.
La función de distribución empírica es una estimación de la función de distribución acumulativa que generó los puntos en la muestra. Esta función, converge con la probabilidad 1 a esa distribución subyacente a cuando , de acuerdo con el teorema de Glivenko-Cantelli. Existen varios resultados para cuantificar la tasa de convergencia de la función de distribución empírica a la función de distribución acumulativa subyacente.
La media de la distribución empírica es un estimador no sesgado de la media de la distribución de la población.
que se denota más comúnmente
Varianza
La varianza de los tiempos de distribución empírica es un estimador imparcial de la varianza de la distribución poblacional, para cualquier distribución de X que tenga una varianza finita.
Para cualquier número real la notación (léase "techo de a") denota el entero mínimo mayor o igual que . Para cualquier número real a, la notación (léase "piso de a") denota el entero mayor menor o igual que .
Si no es un entero, entonces el -th quantile es único y es igual a
Si es un entero, entonces el cuantil -th no es único y es cualquier número real tal que
Mediana empírica
Si es impar, entonces la mediana empírica es el número
Si es par, entonces la mediana empírica es el número
Propiedades asintóticas
Dado que la relación se acerca a uno a medida que tiende a infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas. Además, por la ley fuerte de los números grandes, el estimador converge a cuando casi con seguridad, para cada valor de :[2]
por lo tanto, el estimador es consistente. Esta expresión establece que hay convergencia puntual de la función de distribución empírica a la verdadera función de distribución acumulativa. Un resultado más lógicamente fuerte, llamado el teorema de Glivenko-Cantelli, establece que la convergencia de hecho ocurre uniformemente sobre t:[6]
La distribución asintótica se puede caracterizar de varias maneras diferentes. En primer lugar, el teorema del límite central establece que pointwise, tiene una distribución asintóticamente normal con el estándar tasa de convergencia:[2]
{{ecuación|
La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar por el resultado conocido como incrustación húngara:[7]
Alternativamente, la tasa de convergencia de también se puede cuantificar en términos del comportamiento asintótico de la suposición de esta expresión. El número de resultados existen en este lugar, por ejemplo, la desigualdad de Dvoretzky–Kiefer–Wolfowitz proporciona probabilidades limitadas en la cola de :[7]
De hecho, Kolmogorov demostró que si la función de distribución acumulativa es continua, entonces la expresión converge en distribución a , que tiene la distribución de Kolmogorov que no depende de la forma de .
De acuerdo con los límites anteriores, podemos trazar los intervalos empíricos CDF, CDF y Confidence para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas. A continuación se muestra la sintaxis de Statsmodel para trazar la distribución empírica.
Implementación estadística
Una lista no exhaustiva de implementaciones de software de la función de distribución empírica es la siguiente:
En R software, calculamos una función empírica de distribución acumulativa, con varios métodos para trazar, imprimir y calcular con un objeto "ecdf".
En MATLAB podemos utilizar la gráfica de la función de distribución acumulativa empírica (cdf)
jmp de SAS, la gráfica CDF crea una gráfica de la función empírica de distribución acumulativa.