En estadística, el tamaño del efecto es una medida de la fuerza de un fenómeno[1] (por ejemplo, el cambio en el resultado después de una intervención experimental). El tamaño del efecto calculado a partir de datos es una estadística descriptiva que transmite la magnitud estimada de una relación sin hacer ninguna declaración acerca de si la relación aparente en los datos reflejan una verdadera relación en la población. De esa manera, los tamaños del efecto se complementan con la estadística inferencial, como los valores p. Entre otros usos, el tamaño del efecto juega un papel importante en el metaanálisis de los estudios que resumen los resultados de un área específica de investigación, y en la potencia estadística de análisis
El concepto de tamaño del efecto ya aparece en el lenguaje cotidiano. Por ejemplo, un programa de pérdida de peso puede presumir que conduce a una pérdida de peso promedio de 30 libras. En este caso, 30 libras es el tamaño del efecto estimado. Otro ejemplo es un programa de tutoría que afirma que eleva el rendimiento escolar en un 10% de la calificación. Este aumento de calificación es el tamaño efecto declarado del programa. Estos son dos ejemplos de tamaños del efecto absoluto, lo que significa que son portadores de la diferencia media entre los dos grupos, sin ninguna discusión de la variabilidad dentro de los grupos. Por ejemplo, si los resultados de los programas de pérdida de peso estiman en promedio 30 libras, es posible que cada participante pierda exactamente 30 libras, o la mitad de los participantes pierda 60 libras y el resto no pierda peso en absoluto.
Informar el tamaño del efecto se considera una buena práctica en la presentación de resultados de la investigación empírica en muchos campos.[2][3] Un informe del tamaño del efecto proporciona una significación práctica de los resultados (responde a la pregunta: ¿cuánto es el efecto observado?), la que es diferente a su significación estadística (que responde a la pregunta: ¿es el efecto provocado por puro azar?). Un estudio podría tener un resultado con alta significación estadística, pero, al mismo tiempo, ser trivial si posee un escaso tamaño de efecto.[4]
El tamaño del efecto es particularmente prominente en la investigación social y médica. Las medidas relativas y absolutas de tamaño del efecto transmiten información diferente, y se pueden utilizar de forma complementaria. Un grupo de trabajo destacado en la comunidad de investigación de psicología expresó la siguiente recomendación:
Presente siempre los tamaños del efecto para los resultados primarios ... Si las unidades de medida son significativos en un nivel práctico (por ejemplo, número de cigarrillos fumados por día), entonces por lo general preferimos una medida no estandarizada (coeficiente de regresión o diferencia de medias) a una medida estandarizada (r o d).[2]
Descripción general
Tamaño de efecto poblacional y muestral
Tal como en la estimación estadística, el tamaño de efecto real se distingue del tamaño de efecto observado, esto es, para medir el riesgo de una enfermedad en una población (el tamaño de efecto poblacional) se puede medir el riesgo en una muestra de esa población (el tamaño de efecto muestral). Hay convenciones para anotar los tamaños de efecto real y observado que siguen normas estadísticas estandarizadas –una forma habitual es utilizar letras griegas como ρ para denotar un parámetro poblacional y letras latinas como r para denotar el estadístico correspondiente. Como alternativa, se puede colocar un acento circunflejo (ˆ) sobre el parámetro poblacional para así diferenciar el estadístico, por ejemplo, es la estimación del parámetro poblacional .
Como en cualquier contexto estadístico, los tamaños de efecto se estiman con un error muestral, y pueden estar sesgados a menos que el estimador del tamaño de efecto que se use sea apropiado para la forma en que fueron muestreados los datos y se hicieron las mediciones. Un buen ejemplo es el sesgo de publicación, que ocurre cuando los científicos informan resultados solo cuando los tamaños de efecto estimados son altos o son estadísticamente significativos. Como consecuencia, si muchos investigadores llevan a cabo estudios con bajo poder estadístico, los tamaños de efecto informados tenderán a ser mayores que los efectos (poblacionales) reales, si es que existe alguno.[5] Otro ejemplo donde los tamaños de efecto pueden estar distorsionados es en un experimento con ensayos múltiples, donde el tamaño de efecto se basa en las respuestas promedio o agregadas de todos los ensayos.[6]
Relación con las pruebas estadísticas
Lo que nos entregan los tamaños de efecto muestrales son una estimación de la fuerza o magnitud de, por ejemplo, una relación aparente en los elementos de la muestra. Las pruebas estadísticas, en cambio, asignan un nivel de significación a los tamaños así calculados, lo que nos dice si acaso esos tamaños pudieran deberse a la pura casualidad (azar). El tamaño de efecto no determina la significación estadística, y viceversa. Ocurre que, dada una muestra suficientemente grande, una prueba estadística que no sea nula va a mostrar siempre un resultado estadísticamente significativo, a menos que el tamaño de efecto poblacional sea exactamente cero (e incluso entonces va a mostrar una significancia estadística a la tasa del error Tipo I utilizada). Por ejemplo, un coeficiente de correlación de Pearson de 0.01 en una muestra será estadísticamente significativo si el tamaño de la muestra es de 1000 observaciones. En un caso así, informar solo el p-valor significativo puede ser engañoso si la correlación 0.01 es demasiado pequeña para tener algún interés en una aplicación particular.
Tamaños del efecto estandarizados y no estandarizados
El término tamaño de efecto puede referirse a una medida estandarizada de efecto (tal como r, d de Cohen, o un odds ratio), o a una medida no estandarizada (por ejemplo, la diferencia entre las medias grupales o los coeficientes de regresión no estandarizados). Las medidas de tamaño de efecto estandarizadas se usan normalmente cuando:
- las métricas de las variables que se están estudiando no tienen un significado intrínseco (por ejemplo, un puntaje en una prueba de personalidad en una escala arbitraria),
- se combinan los resultados de estudios múltiples,
- algunos o todos los estudios utilizan escalas diferentes, o
- se quiere hacer el tamaño de un efecto relativo a la variabilidad en la población.
En metaanálisis, los tamaños de efecto estandarizados se utilizan como una medida común que puede ser calculada para diferentes estudios y luego ser combinadas en un resumen único.
Interpretación
Que un tamaño de efecto sea considerado pequeño, moderado o grande va a depender de su contexto substantivo y de su definición operacional. Los criterios convencionales pequeño, mediano, o grande de Cohen[7] son casi ubicuos a través de muchos campos, aunque Cohen advirtió:[7]
“Los términos “pequeño”, “moderado” y “grande” son relativos, no solo uno con respecto al otro, sino que al área de las ciencias conductuales e incluso más particularmente al contenido específico y al método de investigación empleado en un estudio dado… En vista de esta relatividad, existe un cierto riesgo inherente al ofrecer definiciones operacionales convencionales para estos términos en su uso en el análisis de potencia en un campo de indagación tan diverso como lo son las ciencias de la conducta. Este riesgo es aceptado, aun así, en el entendido que se gana más de lo que se pierde al proporcionar un marco de referencia convencional común que se recomienda utilizar solo cuando no hay una mejor base disponible para estimar el tamaño de efecto” (p.25).
En los dos ejemplos, Sawilowsky concluyó “Basándose en los hallazgos actuales de la investigación en la literatura aplicada, parece apropiado revisar las reglas básicas para el tamaño de efecto”, conservando las advertencias que dio Cohen, y ampliando las descripciones para incluir “muy pequeño”, “muy grande” y “enorme”. Los mismos estándares de facto podrían ser desarrollados para otros ejemplos.
Lenth comentó que para un tamaño de efecto “moderado”, “van a usar el mismo n sin considerar la exactitud o confiabilidad de su instrumento, o la escasa o amplia diversidad de sus sujetos. Claramente, hay importantes consideraciones que son aquí ignoradas. Los investigadores tendrían que interpretar la significación sustancial de sus resultados basándose en un contexto significativo o a través de la cuantificación de su contribución al conocimiento, y las descripciones del tamaño de efecto de Cohen pueden ser un adecuado punto de partida”. De manera parecida, un informe patrocinado por el Departamento de Educación de EE. UU. estableció que “el amplio e indiscriminado uso de los valores genéricos de tamaño de efecto pequeño, moderado y grande de Cohen con el objeto de caracterizar los tamaños de efecto en dominios en los que sus valores normativos no se pueden aplicar, es así tanto inapropiado como desorientador”.
El Departamento sugirió que “normas apropiadas son las que se basan en distribuciones de tamaños de efecto para mediciones de resultado comparables de intervenciones a su vez comparables con objetivos también comparables”. Así, si un estudio en un determinado campo donde la mayoría de las investigaciones son pequeñas y conducen a un efecto pequeño (por los criterios de Cohen), con los nuevos criterios se les podría considerar “grandes”. En un tema relacionado, véase la paradoja de Abelson y la paradoja de Sawilowsky.
Referencias
- ↑ Kelley, Ken; Preacher, Kristopher J. (2012). «On Effect Size». Psychological Methods 17 (2): 137-152. doi:10.1037/a0028086.
- ↑ a b Wilkinson, Leland; APA Task Force on Statistical Inference (1999). «Statistical methods in psychology journals: Guidelines and explanations». American Psychologist 54 (8): 594-604. doi:10.1037/0003-066X.54.8.594.
- ↑ Nakagawa, Shinichi; Cuthill, Innes C (2007). «Effect size, confidence interval and statistical significance: a practical guide for biologists». Biological Reviews Cambridge Philosophical Society 82 (4): 591-605. PMID 17944619. doi:10.1111/j.1469-185X.2007.00027.x.
- ↑ Ellis, Paul D. (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. United Kingdom: Cambridge University Press.
- ↑ Brand A, Bradley MT, Best LA, Stoica G (2008). «Accuracy of effect size estimates from published psychological research». Perceptual and Motor Skills 106 (2): 645-649. PMID 18556917. doi:10.2466/PMS.106.2.645-649. Archivado desde el original el 17 de diciembre de 2008.
- ↑ Brand A, Bradley MT, Best LA, Stoica G (2011). «Multiple trials may yield exaggerated effect size estimates». The Journal of General Psychology 138 (1): 1-11. doi:10.1080/00221309.2010.520360.
- ↑ a b Cohen, Jacob (1988). Statistical Power Analysis for the Behavioral Sciences. Routledge. ISBN 978-1-134-74270-7.
https://en.wikipedia.org/wiki/Effect_size#.22Small.22.2C_.22medium.22.2C_.22large.22_effect_sizes