En teoría de probabilidad y estadística, un conjunto de variables aleatorias se consideran independientes e idénticamente distribuidas (i.i.d., iid o IID) si cada variable aleatoria tiene la misma distribución de probabilidad y todas son mutuamente independientes.[1]
La suposición (o requisito) de que un conjunto observaciones sean i.i.d. simplifica las operaciones de muchos métodos estadísticos (véase estadística matemática), por lo que es muy común en la estadística inferencial. Aun así, en aplicaciones prácticas de modelación estadística la suposición puede o no puede ser realista. Para probar qué tan realista es en un conjunto de datos dado, se calcula la autocorrelación, mediante correlogramas y otras pruebas estadísticas.[2]
Esta suposición es fundamental en la forma clásica del teorema del límite central, el cual afirma que, si una variable aleatoria es de cuadrado integrable (Existe el momento no centrado de orden dos), entonces la distribución de probabilidad de dicha variable centrada en su esperanza y normalizada en su desviación típica se aproxima a una distribución normal.
Introducción
En estadística, usualmente tratamos con muestras aleatorias. Una muestra aleatoria puede ser considerada como un conjunto de objetos que son elegidos aleatoriamente; o, más formalmente, es “una secuencia de variables aleatorias independientes e idénticamente distribuidas (IID)”.
En otras palabras, los términos muestra aleatoria e IID son básicamente lo mismo. En estadística, comúnmente decimos “muestra aleatoria”, pero en probabilidad es más común decir “IID”.
- Idénticamente distribuida significa que no existen tendencias generales, es decir, la distribución no varía y todos los elementos en la muestra son tomados de la misma distribución de probabilidad.
- Independiente significa que los elementos muestrales son todos eventos (o sucesos) independientes. En otras palabras, no están conectados entre ellos de ninguna forma.[3] Dicho de otro modo, el conocimiento del valor de una variable no proporciona ninguna información sobre el valor de la otra y viceversa.
Aplicaciones
Las variables aleatorias independientes e idénticamente distribuidas con usadas a menudo como un supuesto, el cual tiende a simplificar las matemáticas subyacentes. En aplicaciones prácticas del modelamiento estadístico, sin embargo, el supuesto puede ser o no ser realista.[4]
El supuesto de i.i.d. también es usado en el Teorema del límite central, el cual establece que la función de distribución de la suma (o media) de variables i.i.d. con varianza finita se aproxima a una distribución normal.[5]
A menudo, el supuesto de i.i.d. surge en el contexto de secuencias de variables aleatorias. Por lo que, "independiente e idénticamente distribuida" implica que un elemento en la secuencia es independiente de las variables aleatorias que la precedieron. De este modo, una secuencia i.i.d. es diferente de una secuencia de Markov, donde la distribución de probabilidad para la n-ésima variable aleatoria es una función de las variables aleatorias anteriores en la secuencia (para una secuencia de Markov de primer orden). Una secuencua i.i.d. no implica que las probabilidades para todos los elementos de un espacio muestral o espacio de eventos deben ser iguales..[6] Por ejemplo, tiradas repetidas de un dado cargado (trucado) producirán una secuencia que es i.i.d., a pesar del hecho de que los resultados sean sesgados.
Definición
Definición para dos variable aleatorias
Suponga que las variables aleatorias e son definidas para asumir valores en . Sean y las funciones de distribución acumulada de e , respectivamente, y denótese su función de distribución de probabilidad acumulada conjunta como .
Dos variables aleatorias e son idénticamente distribuídas si y solo si[7] .
Dos variables aleatorias e son independientes si y solo si . (Véase también Independencia (probabilidad) § Dos variables aleatorias.)
Dos variables aleatorias e son i.i.d. si son independientes e idénticamente distribuidas, es decir, si y solo si
|
|
(Eq.1)
|
|
Definición para más de dos variables aleatorias
La definición se extiende, naturalmente, para más de dos variables aleatorias. Decimos que variables aleatorias son i.i.d. si son independientes (véase también Independencia (probabilidad) § Más de dos variables aleatorias) e idénticamente distribuidas, es decir, si y solo si
|
|
(Eq.2)
|
|
donde denota la función de distribución acumulada conjunta de .
Generalizaciones
Muchos resultados de la inferencia estadística que se han demostrado bajo la suposición que las variables aleatorias son i.i.d. han podido ser demostrados también bajo una suposiciones más débiles sobre las distribución de las variables involucradas.
Variables aleatorias intercambiables
La idea más general qué comparte las propiedades principales de i.i.d. son las llamadas variables aleatorias intercambiables, introducidos por Bruno de Finetti. Esto significa que mientras las variables no pueden ser independientes, las posteriores se comportan como las anteriores, formalmente, cualquier valor de una secuencia finita es tan probable como cualquier permutación de aquellos, la distribución conjunta es invariante bajo el grupo simétrico.
En cálculo estocástico, las variables i.i.d. como un proceso de Lévy en tiempo discreto: cada variable representa un cambio de un tiempo a otro. Por ejemplo, una secuencia de pruebas de Bernoulli está interpretada como el Proceso de Bernoulli.
Uno puede generalizar esto para incluir procesos de Lévy en tiempo continuo, y muchos procesos de Lévy pueden ser vistos como casos límites, por ejemplo, el proceso Wiener es el límite del proceso de Bernoulli.
Referencias
- ↑ Aaron Clauset. «A brief primer on probability distributions». Santa Fe Institute. Archivado desde el original el 20 de enero de 2012. Consultado el 14 de julio de 2016.
- ↑ a b Le Boudec, Jean-Yves (2010). Performance Evaluation Of Computer And Communication Systems. EPFL Press. pp. 46-47. ISBN 978-2-940222-40-7. Archivado desde el original el 12 de octubre de 2013.
- ↑ Stephanie (11 de mayo de 2016). «IID Statistics: Independent and Identically Distributed Definition and Examples». Statistics How To (en inglés estadounidense). Consultado el 9 de diciembre de 2021.
- ↑ Hampel, Frank (1998), «Is statistics too difficult?», Canadian Journal of Statistics 26 (3): 497-513, JSTOR 3315772, S2CID 53117661, doi:10.2307/3315772, hdl:20.500.11850/145503 . (§8).
- ↑ Blum, J. R.; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). «Central Limit Theorems for Interchangeable Processes». Canadian Journal of Mathematics 10: 222-229. doi:10.4153/CJM-1958-026-0.
- ↑ Cover, T. M.; Thomas, J. A. (2006). Elements Of Information Theory. Wiley-Interscience. pp. 57–58. ISBN 978-0-471-24195-9.
- ↑ Casella y Berger, 2002, Theorem 1.5.10