Poder do teste estatístico

Em estatística, o poder de um teste de hipótese binário é a probabilidade de que o teste rejeite corretamente a hipótese nula () quando uma hipótese alternativa específica () é verdadeira. É comumente denotado por e representa as chances de uma detecção de verdadeiro positivo condicionada à existência real de um efeito a ser detectado. O poder estatístico varia de 0 a 1 e, à medida que o poder de um teste aumenta, a probabilidade de cometer um erro do tipo II ao falhar erroneamente em rejeitar a hipótese nula diminui.

Notação

Ver artigo principal: Testes de hipóteses

Este artigo usa a seguinte notação:

  • β = probabilidade de um erro tipo II, conhecido como "falso negativo"
  • 1 − β = probabilidade de um "verdadeiro positivo", ou seja, rejeitar corretamente a hipótese nula. "1 − β" também é conhecido como o poder do teste.
  • α = probabilidade de um erro tipo I, conhecido como "falso positivo"
  • 1 − α = probabilidade de um "verdadeiro negativo", ou seja, não rejeitar corretamente a hipótese nula

Descrição

Ilustração do poder e do nível de significância de um teste estatístico, dada a hipótese nula (distribuição amostral 1) e a hipótese alternativa (distribuição amostral 2).

Para uma probabilidade de erro tipo II de β, o poder estatístico correspondente é 1 − β. Por exemplo, se o experimento E tiver um poder estatístico de 0,7 e o experimento F tiver um poder estatístico de 0,95, há uma probabilidade maior de que o experimento E tenha um erro do tipo II do que o experimento F. Isso reduz a sensibilidade do experimento E para detectar efeitos. No entanto, o experimento E é consequentemente mais confiável do que o experimento F devido à menor probabilidade de um erro do tipo I. Pode ser equivalentemente pensado como a probabilidade de aceitar a hipótese alternativa () quando for verdadeira – isto é, a capacidade de um teste para detectar um efeito específico, se esse efeito específico realmente existir . Desta forma,

Se não for uma igualdade, mas simplesmente a negação de (por exemplo, com para algum parâmetro populacional não observado temos simplesmente ), então o poder não pode ser calculado a menos que as probabilidades sejam conhecidas para todos os valores possíveis do parâmetro que violam a hipótese nula. Assim, geralmente se refere ao poder de um teste “contra uma hipótese alternativa específica”.

À medida que o poder do teste aumenta, há uma probabilidade decrescente de um erro tipo II, também chamado de taxa de falsos negativos (β ) já que o poder do teste é igual a 1 − β. Um conceito semelhante é a probabilidade de erro tipo I, também chamada de taxa de falsos positivos ou o nível de um teste sob a hipótese nula.

No contexto de classificação binária, o poder de um teste é chamado de sensibilidade estatística, sua taxa de verdadeiro positivo ou sua probabilidade de detecção.

Análise do poder do teste

Um conceito relacionado é "análise de poder". A análise de poder pode ser usada para calcular o mínimo tamanho da amostra necessário para que seja razoavelmente provável detectar um efeito de um determinado tamanho. Por exemplo: "Quantas vezes eu preciso jogar uma moeda para concluir que ela é manipulada por uma certa quantia?"[1] A análise de poder do teste também pode ser usada para calcular o tamanho mínimo do efeito que provavelmente será detectado em um estudo usando um determinado tamanho de amostra. Além disso, o conceito de poder é usado para fazer comparações entre diferentes procedimentos de testes estatísticos: por exemplo, entre um teste paramétrico e um teste não paramétrico da mesma hipótese.

Regra de ouro

A regra prática de Lehr[2][3] diz que o tamanho (aproximado) da amostra para um Teste t de duas amostras com poder de 80% () e nível de significância deve ser: onde é uma estimativa da variância da população e a diferença a ser detectada nos valores médios de ambas as amostras. Para um teste t de uma amostra 16 deve ser substituído por 8. A vantagem da regra prática é que ela pode ser memorizada facilmente e pode ser reorganizada para . Para análise rigorosa, sempre deve ser realizada uma análise do poder do teste total.

Fundamentação

Teste estatísticos usam dados de amostras para avaliar ou fazer inferências sobre uma população estatística. No cenário concreto de uma comparação de duas amostras, o objetivo é avaliar se as valores médias de algum atributo obtido para indivíduos em duas subpopulações diferem. Por exemplo, para testar a hipótese nula de que as pontuações médias de homens e mulheres em um teste não diferem, amostras de homens e mulheres são sorteadas, o teste é administrado a e a pontuação média de um grupo é comparada com a do outro grupo usando um teste estatístico como o [[teste Z|z-teste] de duas amostras]. O poder do teste é a probabilidade de que o teste encontre uma diferença estatisticamente significativa entre homens e mulheres, em função do tamanho da verdadeira diferença entre essas duas populações.

Fatores que influenciam o poder

O poder estatístico pode depender de vários fatores. Alguns fatores podem ser específicos para uma situação de teste específica, mas, no mínimo, o poder do teste quase sempre depende dos três fatores a seguir:

Um critério de significância é uma declaração de quão improvável um resultado positivo deve ser, se a hipótese nula de nenhum efeito for verdadeira, para que a hipótese nula seja rejeitada. Os critérios mais usados são probabilidades de 0,05 (5%, 1 em 20), 0,01 (1%, 1 em 100) e 0,001 (0,1%, 1 em 1000). Se o critério for 0,05, a probabilidade dos dados implicarem um efeito pelo menos tão grande quanto o efeito observado quando a hipótese nula for verdadeira deve ser menor que 0,05, para que a hipótese nula de nenhum efeito seja rejeitada. Uma maneira fácil de aumentar o poder de um teste é realizar um teste menos conservador usando um critério de significância maior, por exemplo, 0,10 em vez de 0,05. Isso aumenta a chance de rejeição da hipótese nula (obtenção de resultado estatisticamente significativo) quando a hipótese nula é falsa; ou seja, reduz o risco de um erro tipo II (falso negativo em relação à existência de um efeito). Mas também aumenta o risco de obter um resultado estatisticamente significativo (rejeitando a hipótese nula) quando a hipótese nula não é falsa; ou seja, aumenta o risco de um erro tipo I (falso positivo).

A magnitude do efeito de interesse na população pode ser quantificada em termos de um tamanho do efeito, onde há maior poder para detectar efeitos maiores. Um tamanho de efeito pode ser um valor direto da quantidade de interesse, ou pode ser uma medida padronizada que também leva em conta a variabilidade na população. Por exemplo, em uma análise comparando os resultados em uma população tratada e de controle, a diferença de resultado significa seria uma estimativa direta do tamanho do efeito, enquanto seria um tamanho de efeito padronizado estimado, onde é o desvio padrão comum dos resultados no grupos tratados e controle. Se construído adequadamente, um tamanho de efeito padronizado, juntamente com o tamanho da amostra, determinará completamente o poder. Um tamanho de efeito não padronizado (direto) raramente é suficiente para determinar o poder, pois não contém informações sobre a variabilidade nas medições.

Um exemplo de como o tamanho da amostra afeta os níveis de poder

O tamanho da amostra determina a quantidade de erro de amostragem inerente a um resultado de teste. Outras coisas sendo iguais, os efeitos são mais difíceis de detectar em amostras menores. Aumentar o tamanho da amostra geralmente é a maneira mais fácil de aumentar o poder estatístico de um teste. Como o aumento do tamanho da amostra se traduz em maior poder é uma medida da eficiência do teste – por exemplo, o tamanho da amostra necessário para um determinado poder.[4]

A precisão com que os dados são medidos também influencia o poder estatístico. Conseqüentemente, o poder do teste muitas vezes pode ser melhorado reduzindo o erro de medição nos dados. Um conceito relacionado é melhorar a "confiabilidade" da medida que está sendo avaliada (como em confiabilidade psicométrica).

O design de um experimento ou estudo observacional geralmente influencia o poder. Por exemplo, em uma situação de teste de duas amostras com um determinado tamanho total de amostra n, é ótimo ter números iguais de observações das duas populações sendo comparadas (desde que as variâncias nas duas populações sejam o mesmo). Em análise de regressão e análise de variância, existem extensas teorias e estratégias práticas para melhorar o poder com base na definição ótima dos valores das variáveis independentes no modelo.

Interpretação

Embora não existam padrões formais para poder (às vezes chamado de 1 − β), a maioria dos pesquisadores avalia o poder de seus testes usando 1 − β =  0,80 como padrão de adequação. Esta convenção implica uma troca de quatro para um entre o risco β e o risco α. (β é a probabilidade de um erro do tipo II, e α é a probabilidade de um erro do tipo I; 0,2 e 0,05 são valores convencionais para β e α ). No entanto, haverá momentos em que essa ponderação de 4 para 1 será inadequada. Na medicina, por exemplo, os testes são muitas vezes concebidos de forma a não produzirem falsos negativos (erros do tipo II). Mas isso inevitavelmente aumenta o risco de obter um falso positivo (um erro do tipo I). A lógica é que é melhor dizer a um paciente saudável "podemos ter encontrado algo - vamos testar mais", do que dizer a um paciente doente "está tudo bem".[5]

A análise de poder é apropriada quando a preocupação é com a rejeição correta de uma falsa hipótese nula. Em muitos contextos, a questão é menos determinar se há ou não uma diferença, mas sim obter uma estimativa mais refinada do tamanho do efeito populacional. Por exemplo, se estivéssemos esperando uma população correlação entre inteligência e desempenho no trabalho de cerca de 0,50, um tamanho de amostra de 20 nos dará aproximadamente 80% de poder (α  = 0,05, bicaudal) para rejeitar a hipótese nula de correlação zero. No entanto, ao fazer este estudo, provavelmente estamos mais interessados em saber se a correlação é 0,30 ou 0,60 ou 0,50. Nesse contexto, precisaríamos de um tamanho de amostra muito maior para reduzir o intervalo de confiança de nossa estimativa para um intervalo aceitável para nossos propósitos. Técnicas semelhantes às empregadas em uma análise de poder tradicional podem ser usadas para determinar o tamanho da amostra necessário para que a largura de um intervalo de confiança seja menor que um determinado valor.

Muitas análises estatísticas envolvem a estimativa de várias quantidades desconhecidas. Em casos simples, todas menos uma dessas quantidades são parâmetros perturbadores. Nesse cenário, o único poder relevante pertence à única quantidade que sofrerá inferência estatística formal. Em alguns cenários, principalmente se os objetivos forem mais "exploratórios", pode haver uma série de grandezas de interesse na análise. Por exemplo, em uma análise de regressão múltipla podemos incluir várias covariáveis de interesse potencial. Em situações como esta em que várias hipóteses estão em consideração, é comum que os poderes associados às diferentes hipóteses sejam diferentes. Por exemplo, na análise de regressão múltipla, o poder de detectar um efeito de um determinado tamanho está relacionado à variância da covariável. Como diferentes covariáveis terão variações diferentes, seus poderes também serão diferentes.

Qualquer análise estatística envolvendo múltiplas hipóteses está sujeita à inflação da taxa de erro do tipo I se as medidas apropriadas não forem tomadas. Tais medidas normalmente envolvem a aplicação de um limite mais alto de rigor para rejeitar uma hipótese, a fim de compensar as múltiplas comparações que estão sendo feitas (por exemplo como no método de Bonferroni). Nesta situação, a análise de poder deve refletir a abordagem de teste múltiplo a ser usada. Assim, por exemplo, um determinado estudo pode ter um poder muito bom para detectar um certo tamanho de efeito quando apenas um teste deve ser feito, mas o mesmo tamanho de efeito pode ter um poder muito menor se vários testes forem realizados.

Também é importante considerar o poder estatístico de um teste de hipótese ao interpretar seus resultados. O poder de um teste é a probabilidade de rejeitar corretamente a hipótese nula quando ela é falsa; o poder de um teste é influenciado pela escolha do nível de significância para o teste, pelo tamanho do efeito que está sendo medido e pela quantidade de dados disponíveis. Um teste de hipótese pode falhar em rejeitar o nulo, por exemplo, se existir uma diferença verdadeira entre duas populações sendo comparadas por um teste t, mas o efeito é pequeno e o tamanho da amostra é muito pequeno para distinguir o efeito do acaso.[6] Muitos ensaios clínicos, por exemplo, têm baixo poder estatístico para detectar diferenças nos efeitos adversos dos tratamentos , uma vez que tais efeitos podem ser raros e o número de pacientes afetados é pequeno.[7]

Análise a priori vs. análise post hoc

A análise de poder pode ser feita antes (a priori ou análise de poder prospectiva) ou depois (post hoc ou análise de poder retrospectiva) serem coletados. A análise de poder "a priori" é realizada antes do estudo de pesquisa e é normalmente usada para estimar tamanhos de amostra suficientes para obter o poder adequado. A análise "post-hoc" do "poder observado" é conduzida após a conclusão de um estudo e usa o tamanho da amostra e o tamanho do efeito obtidos para determinar qual foi o poder no estudo, assumindo que o tamanho do efeito na amostra é igual ao tamanho do efeito na população. Considerando que a utilidade da análise de poder prospectivo no projeto experimental é universalmente aceita, a análise de poder post hoc é fundamentalmente falha.[8][9] Cair na tentação de usar a análise estatística dos dados coletados para estimar o poder resultará em valores não informativos e enganosos. Em particular, foi demonstrado que o "poder observado" "post-hoc" é uma função injetora do valor de p obtido.[8] Isso foi estendido para mostrar que todas as análises de poder "post-hoc" sofrem do que é chamado de "paradoxo da abordagem de poder" (PAP), em que se pensa que um estudo com resultado nulo mostra mais evidências de que a hipótese nula é realmente verdadeira quando o valor p é menor, uma vez que o poder aparente para detectar um efeito real seria maior.[8]

Aplicativo

Agências de financiamento, conselhos de ética e painéis de revisão de pesquisa frequentemente solicitam que um pesquisador realize uma análise de poder, por exemplo, para determinar o número mínimo de sujeitos de teste em animais necessários para que um experimento seja informativo. Em estatísticas frequentistas, é improvável que um estudo de baixa potência permita escolher entre hipóteses no nível de significância desejado. Em estatística bayesiana, o teste de hipóteses do tipo usado na análise de poder clássica não é feito. Na estrutura bayesiana, a pessoa atualiza suas crenças anteriores usando os dados obtidos em um determinado estudo. Em princípio, um estudo que seria considerado fraco do ponto de vista do teste de hipóteses ainda poderia ser usado em tal processo de atualização. No entanto, o poder continua sendo uma medida útil de quanto um determinado tamanho de experimento pode ser esperado para refinar as crenças de alguém. É improvável que um estudo com baixo poder leve a uma grande mudança nas crenças.

Exemplo

A seguir, um exemplo que mostra como calcular o poder de um experimento aleatório: suponha que o objetivo de um experimento seja estudar o efeito de um tratamento em alguma quantidade e comparar os sujeitos da pesquisa medindo a quantidade antes e depois do tratamento, analisando a dados usando um teste t pareado. Seja e as medidas de pré-tratamento e pós-tratamento no sujeito , respectivamente. O possível efeito do tratamento deve ser visível nas diferenças que são consideradas distribuídas independentemente, todas com o mesmo valor médio esperado e variância.

O efeito do tratamento pode ser analisado usando um teste t unilateral. A hipótese nula de nenhum efeito será que a diferença média será zero, ou seja, Nesse caso, a hipótese alternativa afirma um efeito positivo, correspondendo a A estatística de teste é:

Onde

n é o tamanho da amostra e é o erro padrão. A estatística de teste sob a hipótese nula segue uma distribuição de Student t com a suposição adicional de que os dados são distribuídos identicamente . Além disso, suponha que a hipótese nula será rejeitada no nível de significância de Como n é grande, pode-se aproximar o t- distribuição por uma distribuição normal e calcule o valor crítico usando a função quantil , o inverso da função de distribuição cumulativa do distribuição normal. Acontece que a hipótese nula será rejeitada se

Agora suponha que a hipótese alternativa seja verdadeira e . Então, o poder é

Para n grande, segue aproximadamente um padrão [ [distribuição normal]] quando a hipótese alternativa é verdadeira, o poder aproximado pode ser calculado como

De acordo com esta fórmula, o poder aumenta com os valores do parâmetro Para um valor específico de um poder maior pode ser obtido aumentando o tamanho da amostra n.

Não é possível garantir uma potência suficientemente grande para todos os valores de pois pode ser muito próximo de 0. O mínimo (infimum) o valor da potência é igual ao nível de confiança do teste, neste exemplo 0,05. No entanto, não é importante distinguir entre e pequenos valores positivos. Se for desejável ter poder suficiente, digamos pelo menos 0,90, para detectar valores de o tamanho da amostra necessário pode ser calculado aproximadamente:

de onde decorre que

Portanto, usando a função quantílica

onde é um quantil normal padrão; consulte o artigo Probito para obter uma explicação da relação entre os valores e z.

Extensão

Potência Bayesiana

Na configuração frequentista, os parâmetros são considerados como tendo um valor específico que provavelmente não é verdadeiro. Esse problema pode ser resolvido assumindo que o parâmetro tem uma distribuição. A potência resultante às vezes é chamada de potência Bayesiana, que é comumente usada em projetos de ensaio clínico.

Probabilidade preditiva de sucesso

Tanto o poder frequentista quanto o poder bayesiano usam significância estatística como critério de sucesso. No entanto, a significância estatística muitas vezes não é suficiente para definir o sucesso. Para resolver esse problema, o conceito de poder pode ser estendido ao conceito de probabilidade preditiva de sucesso (PPOS). O critério de sucesso para PPOS não se restringe à significância estatística e é comumente usado em projetos de ensaio clínico.

Software para cálculos de poder e tamanho da amostra

Vários programas gratuitos e/ou de código aberto estão disponíveis para realizar cálculos de poder e tamanho de amostra. Esses incluem

  • G*Power (https://www.gpower.hhu.de/)
  • Análise de poder estatística online gratuita do WebPower (https://webpower.psychstat.org)
  • Calculadoras online gratuitas e de código aberto (https://powerandsamplesize.com)
  • Energizar! fornece funções convenientes baseadas em Excel para determinar o tamanho mínimo do efeito detectável e o tamanho mínimo de amostra necessário para vários projetos experimentais e quase-experimentais.
  • PowerUpR é a versão do pacote R do PowerUp! e, adicionalmente, inclui funções para determinar o tamanho da amostra para vários experimentos aleatórios multinível com ou sem restrições orçamentárias.
  • R pacote pwr
  • Pacote R WebPower
  • Pacote Python statsmodels (https://www.statsmodels.org/)

Ver também

Referências

  1. «Statistical power and underpowered statistics — Statistics Done Wrong». www.statisticsdonewrong.com. Consultado em 30 de setembro de 2019 
  2. Robert Lehr (1992), «SixteenS-squared overD-squared: A relation for crude sample size estimates», Statistics in Medicine, ISSN 0277-6715 (em alemão), 11 (8), pp. 1099–1102, doi:10.1002/sim.4780110811 
  3. van Belle, Gerald (18 de agosto de 2008). Statistical Rules of Thumb, Second Edition. Col: Wiley Series in Probability and Statistics. Hoboken, NJ, USA: John Wiley & Sons, Inc. ISBN 978-0-470-37796-3 
  4. nome=EverittBS2002>Everitt, Brian S. (2002). The Cambridge Dictionary of Statistics. [S.l.]: Cambridge University Press. p. 321. ISBN 0-521-81099-X 
  5. Ellis, Paul D. (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. United Kingdom: Cambridge University Press 
  6. Ellis, Paul (2010). The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. [S.l.]: Cambridge University Press. p. 52. ISBN 978-0521142465 
  7. Tsang, R.; Colley, L.; Lynd, L.D. (2009). «Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials». Journal of Clinical Epidemiology. 62 (6): 609–616. PMID 19013761. doi:10.1016/j.jclinepi.2008.08.005 
  8. a b c Hoenig; Heisey (2001). «The Abuse of Power». The American Statistician. 55 (1): 19–24. doi:10.1198/000313001300339897 
  9. Thomas, L. (1997). «Retrospective power analysis» (PDF). Conservation Biology. 11 (1): 276–280 

Fontes

  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences 2nd ed. [S.l.: s.n.] ISBN 0-8058-0283-5 
  • Aberson, C.L. (2010). Applied Power Analysis for the Behavioral Science. [S.l.: s.n.] ISBN 1-84872-835-2 

Ligações externas