Estadística matemática

Ilustración de una regresión lineal en un conjunto de datos. El análisis de regresión es una parte importante de la estadística matemática.

La estadística matemática es la escala previa en el estudio de la estadística desde un punto de vista puramente formal, aplicando la teoría de la probabilidad y otras ramas de la matemática tales como álgebra lineal, análisis matemático, análisis estocástico, ecuaciones diferenciales y la teoría de las medidas.[1][2]​ La estadística matemática trata de la obtención de información a partir de los datos. En la práctica tales datos contienen cierta aleatoriedad o incertidumbre. La estadística trabaja con estos datos usando los métodos de la teoría de la probabilidad.

Introducción

La recolección de datos estadísticos tiene que ver con la planificación de estudios, especialmente con el diseño de experimentos aleatorios y con la planificación de encuestas mediante muestreo aleatorio. El análisis inicial de los datos suele seguir el protocolo del estudio especificado antes de su realización. Los datos de un estudio también pueden analizarse para considerar hipótesis secundarias inspiradas en los resultados iniciales, o para sugerir nuevos estudios. Un análisis secundario de los datos de un estudio planificado utiliza herramientas del análisis de datos, y el proceso para hacerlo es la estadística matemática.

La estadística matemática se divide en:

  • Estadística descriptiva: parte que se encarga de describir los datos, esto es, de realizar un resumen y describir sus propiedades típicas.
  • Inferencia estadística: parte que elabora conclusiones a partir de una muestra de los datos (utilizando un modelo para los datos), en otras palabras, comprueba el ajuste de los datos a determinadas condiciones de un modelo concreto y proporciona una medida de la bondad de los mismos en términos probabilísticos (por ejemplo, mediante intervalos de confianza).

La estadística matemática es la base teórica para muchas prácticas en la estadística aplicada.

Aunque las herramientas de análisis de datos funcionan mejor con datos procedentes de estudios aleatorios, también se aplican a otros tipos de datos. Por ejemplo, a partir de experimentos naturales y estudios observacionales, en cuyo caso la inferencia depende del modelo elegido por el estadístico, y es tan subjetiva.[3][4]

Temas

A continuación se enumeran algunos de los temas importantes de la estadística matemática:[5][6]

Distribuciones de probabilidad

Una distribución de probabilidad es una función que asigna una probabilidad a cada subconjunto medible de los posibles resultados de un experimento aleatorio, encuesta o procedimiento de inferencia estadística. Los ejemplos se encuentran en experimentos cuyo espacio muestral no es numérico, donde la distribución sería una distribución categórica; experimentos cuyo espacio muestral está codificado por variables aleatorias discretas, donde la distribución puede especificarse mediante una función de masa de probabilidad; y experimentos con espacios muestrales codificados por variables aleatorias continuas, donde la distribución puede especificarse mediante una función de densidad de probabilidad. Los experimentos más complejos, como los que implican procesos estocásticos definidos en tiempo continuo, pueden exigir el uso de medidas de probabilidad más generales.

Una distribución de probabilidad puede ser univariante o multivariante. Una distribución univariante da las probabilidades de que una única variable aleatoria tome varios valores alternativos; una distribución multivariante (una distribución de probabilidad conjunta) da las probabilidades de que un vector aleatorio (un conjunto de dos o más variables aleatorias) tome varias combinaciones de valores. Las distribuciones de probabilidad univariantes más importantes y frecuentes son la distribución binomial, la distribución hipergeométrica y la distribución normal. La distribución normal multivariante es una distribución multivariante frecuente.

Distribuciones especiales

Inferencia estadística

La inferencia estadística es el proceso de extraer conclusiones a partir de datos sujetos a variaciones aleatorias, por ejemplo, errores de observación o variaciones de muestreo.[7]​ Los requisitos iniciales de un sistema de procedimientos de inferencia e inducción de este tipo son que el sistema produzca respuestas razonables cuando se aplique a situaciones bien definidas y que sea lo suficientemente general como para poder aplicarse a toda una serie de situaciones. La estadística inferencial se utiliza para contrastar hipótesis y realizar estimaciones a partir de datos muestrales. Mientras que las estadísticas descriptivas describen una muestra, las estadísticas inferenciales infieren predicciones sobre una población mayor a la que representa la muestra.

El resultado de la inferencia estadística puede ser una respuesta a la pregunta "¿qué se debería hacer a continuación?", que puede consistir en una decisión sobre la realización de nuevos experimentos o encuestas, o en extraer una conclusión antes de aplicar alguna política organizativa o gubernamental.

En su mayor parte, la inferencia estadística formula proposiciones sobre poblaciones, utilizando datos extraídos de la población de interés mediante alguna forma de muestreo aleatorio. En términos más generales, los datos sobre un proceso aleatorio se obtienen a partir de su comportamiento observado durante un periodo de tiempo finito. Dado un parámetro o hipótesis sobre el que se desea hacer una inferencia, la inferencia estadística suele utilizar lo siguiente:

  • Un modelo probabilístico del proceso aleatorio que se supone que genera los datos, que se conoce cuando se ha utilizado la aleatorización.
  • Una realización concreta del proceso aleatorio, es decir, un conjunto de datos.

Regresión

En estadística, el análisis de regresión es un proceso estadístico para estimar las relaciones entre variables. Incluye muchas formas de modelizar y analizar varias variables, cuando la atención se centra en la relación entre una variable dependiente y una o más variables independientes. Más concretamente, el análisis de regresión ayuda a comprender cómo cambia el valor típico de la variable dependiente (o "variable criterio") cuando varía cualquiera de las variables independientes, mientras que las demás variables independientes se mantienen fijas. Lo más habitual es que el análisis de regresión estime la expectativa condicional de la variable dependiente en función de las variables independientes, es decir, el valor medio de la variable dependiente cuando se fijan las variables independientes. Con menos frecuencia, la atención se centra en un cuantil u otro parámetro de ubicación de la distribución condicional de la variable dependiente dadas las variables independientes. En todos los casos, el objetivo de la estimación es una función de las variables independientes denominada función de regresión. En el análisis de regresión, también interesa caracterizar la variación de la variable dependiente en torno a la función de regresión, que puede describirse mediante una distribución de probabilidad.

Se han desarrollado muchas técnicas para llevar a cabo el análisis de regresión. Los métodos conocidos, como la regresión lineal, son paramétricos, en el sentido de que la función de regresión se define en términos de un número finito de parámetros desconocidos que se estiman a partir de los datos (por ejemplo, utilizando mínimos cuadrados ordinarios). La regresión no paramétrica hace referencia a las técnicas que permiten que la función de regresión se encuentre en un conjunto específico de funciones, que puede ser de dimensión infinita.

Estadística no paramétrica

Las estadísticas no paramétricas son valores calculados a partir de datos de una forma que no se basa en familias parametrizadas de distribuciones de probabilidad. Incluyen tanto estadísticas descriptivas como inferenciales. Los parámetros típicos son las expectativas, la varianza, etc. A diferencia de la estadística paramétrica, la estadística no paramétrica no hace suposiciones sobre las distribuciones de probabilidad de las variables que se evalúan.[8]

Los métodos no paramétricos se utilizan mucho para estudiar poblaciones que adoptan un orden jerárquico (como las críticas de películas que reciben de una a cuatro estrellas). El uso de métodos no paramétricos puede ser necesario cuando los datos tienen un ranking pero no una interpretación numérica clara, como cuando se evalúan las preferencias. En términos de niveles de medida, los métodos no paramétricos dan lugar a datos "ordinales".

Como los métodos no paramétricos hacen menos suposiciones, su aplicabilidad es mucho más amplia que la de los métodos paramétricos correspondientes. En concreto, pueden aplicarse en situaciones en las que se sabe menos sobre la aplicación en cuestión. Además, al basarse en menos supuestos, los métodos no paramétricos son más robustos.

Un inconveniente de los métodos no paramétricos es que, al no basarse en suposiciones, suelen ser menos potentes que sus homólogos paramétricos.[9]​ Las pruebas no paramétricas de baja potencia son problemáticas porque un uso común de estos métodos es para cuando una muestra tiene un tamaño de muestra bajo.[9]​ Se ha demostrado que muchos métodos paramétricos son las pruebas más potentes a través de métodos como el lema de Neyman-Pearson y la prueba del cociente de verosimilitud.

Otra justificación del uso de métodos no paramétricos es la simplicidad. En algunos casos, incluso cuando el uso de métodos paramétricos está justificado, los métodos no paramétricos pueden ser más fáciles de utilizar. Debido tanto a esta simplicidad como a su mayor robustez, algunos estadísticos consideran que los métodos no paramétricos dejan menos margen para un uso inadecuado y un malentendido.

Estadística, matemáticas y estadística matemática

La estadística matemática es un subconjunto clave de la disciplina estadística. Los teóricos de la estadística estudian y mejoran los procedimientos estadísticos con las matemáticas, y la investigación estadística plantea a menudo cuestiones matemáticas.

Los matemáticos y estadísticos como Gauss, Laplace y C. S. Peirce utilizaron la teoría de la decisión con distribuciones de probabilidad y funciones de pérdida (o funciones de utilidad). Abraham Wald y sus sucesores revitalizaron el enfoque teórico de la decisión para la inferencia estadística,[10][11][12][13][14][15][16]​ que hace un amplio uso de la computación científica, el análisis y la optimización; para el diseño de experimentos, los estadísticos utilizan el álgebra y la combinatoria. Aunque la práctica estadística se apoya a menudo en la probabilidad y la teoría de la decisión, su aplicación puede ser controvertida.[4]

Véase también

Referencias

  1. Kannan, D.; Lakshmikantham, V., eds. (2002). Handbook of stochastic analysis and applications (en inglés). Nueva York: M. Dekker. ISBN 0824706609. 
  2. Schervish, Mark J. (1995). Theory of statistics (en inglés) (Corr. 2nd print. edición). Nueva York: Springer. ISBN 0387945466. 
  3. Freedman, David A. (2005). «Statistical Models: Theory and Practice». Cambridge University Press. ISBN 978-0-521-67105-7. 
  4. a b Freedman, David A. (2010). Collier, David; Sekhon, Jasjeet S., Stark, Philp B., eds. Statistical Models and Causal Inference: A Dialogue with the Social Sciences (en inglés). Cambridge University Press. ISBN 978-0-521-12390-7. 
  5. Hogg, R. V.; Craig, A.; McKean, J. W. (2005). Intro to Mathematical Statistics (en inglés). 
  6. Larsen, Richard J.; Marx, Morris L. (2012). An Introduction to Mathematical Statistics and Its Applications (en inglés). Prentice Hall. 
  7. Upton, G.; Cook, I. (2008). Oxford Dictionary of Statistics (en inglés). OUP. ISBN 978-0-19-954145-4. 
  8. «Research Nonparametric Methods». Carnegie Mellon University (en inglés). 
  9. a b «Nonparametric Tests». sphweb.bumc.bu.edu (en inglés). Consultado el 17 de junio de 2024. 
  10. Wald, Abraham (1947). Sequential analysis (en inglés). Nueva York: John Wiley and Sons. ISBN 0-471-91806-7. «Véase: reprint, 2004: ISBN 0-486-43912-7». 
  11. Wald, Abraham (1950). Statistical Decision Functions (en inglés). Nueva York: John Wiley and Sons. 
  12. Lehmann, Erich (1997). Testing Statistical Hypotheses (en inglés) (2da edición). ISBN 0-387-94919-4. 
  13. Lehmann, Erich; Cassella, George (1998). Theory of Point Estimation (en inglés) (2da edición). ISBN 0-387-98502-6. 
  14. Bickel, Peter J.; Doksum, Kjell A. (2001). Mathematical Statistics: Basic and Selected Topics (en inglés) 1 (Second (updated printing 2007) edición). Pearson Prentice-Hall. 
  15. Le Cam, Lucien (1986). Asymptotic Methods in Statistical Decision Theory (en inglés). Springer-Verlag. ISBN 0-387-96307-3. 
  16. Liese, Friedrich; Miescke, Klaus-J. (2008). Statistical Decision Theory: Estimation, Testing, and Selection (en inglés). Springer. 

Bibliografía

  • Borovkov, A. A. Estadística matemática, Editorial Mir, Moscú, 1984.
  • García Nogales, Agustín, Estadística matemática, Publicaciones de la Universidad de Extremadura.

Lecturas adicionales