A crise de replicação (também chamada de crise de replicabilidade e crise de reprodutibilidade) é uma crise metodológica contínua em que se descobriu que muitos estudos científicos são difíceis ou impossíveis de replicar ou reproduzir. A crise de replicação afeta mais severamente as ciências sociais e a medicina,[2][3] enquanto os dados da pesquisa indicam fortemente que todas as ciências naturais também estão provavelmente envolvidas.[4] A frase foi cunhada no início de 2010[5] como parte de uma crescente consciência do problema. A crise de replicação representa um importante corpo de pesquisa no campo da metaciência.[6]
Porque a reprodutibilidade dos resultados experimentais é uma parte essencial do método científico,[7] uma incapacidade de replicar os estudos de outros tem consequências potencialmente graves para muitos campos da ciência nos quais teorias significativas são baseadas em trabalho experimental irreproduzível. A crise de replicação foi particularmente discutida nos campos da medicina, onde uma série de esforços foram empreendidos para re-investigar resultados clássicos, para determinar a confiabilidade dos resultados e, se não forem confiáveis, as razões para a falha de replicação.[8][9]
Alcance
Geral
Uma pesquisa de 2016 com 1.500 cientistas conduzida pela Nature relatou que 70% deles não conseguiram reproduzir pelo menos um experimento de outro cientista (incluindo 87% dos químicos, 77% dos biólogos, 69% dos físicos e engenheiros, 67% dos pesquisadores médicos, 64% dos geólogos e cientistas do meio ambiente e 62% de todos os outros), enquanto 50% não conseguiram reproduzir um de seus próprios experimentos e menos de 20% já foram contatados por outro pesquisador incapaz de reproduzir seu trabalho. Apenas uma minoria tentou publicar uma replicação e, embora 24% tenham conseguido publicar uma replicação bem-sucedida, apenas 13% publicaram uma replicação com falha, e vários entrevistados que publicaram replicações com falha observaram que editores e revisores exigiram que reproduzissem para baixo comparações com os estudos originais.[4][10] Em 2009, 2% dos cientistas admitiram falsificar estudos pelo menos uma vez e 14% admitiram conhecer pessoalmente alguém que o fez. Tal má conduta foi, de acordo com um estudo, relatada com mais frequência por pesquisadores médicos do que por outros.[11] Um estudo de 2021 descobriu que artigos em revistas importantes com descobertas que não podem ser replicadas tendem a ser mais citados do que ciência reproduzível. Os resultados publicados de forma improdutiva - ou não de uma forma suficientemente transparente e replicável - têm maior probabilidade de estar errados e podem retardar o progresso. Os autores também apresentam possíveis explicações para este estado de coisas.[12][13]
Na psicologia
Vários fatores se combinaram para colocar a psicologia no centro da controvérsia.[14] De acordo com uma pesquisa de 2018 com 200 meta-análises, "a pesquisa psicológica é, em média, afetada por baixo poder estatístico".[15] Muito do foco tem sido na área da psicologia social,[16] embora outras áreas da psicologia, como psicologia clínica,[17][18]psicologia do desenvolvimento,[19] e pesquisa educacional também tenham sido implicadas.[20][21]
Em primeiro lugar, práticas de pesquisa questionáveis (Questionable Research Practices ou QRPs em inglês) foram identificadas como comuns no campo.[22] Essas práticas, embora não sejam intencionalmente fraudulentas, envolvem capitalizar a área cinzenta das práticas científicas aceitáveis ou explorar a flexibilidade na coleta, análise e relatório de dados, muitas vezes em um esforço para obter o resultado desejado. Exemplos de QRPs incluem relatórios seletivos ou publicação parcial de dados (relatando apenas algumas das condições do estudo ou medidas dependentes coletadas em uma publicação), parada opcional (escolhendo quando parar a coleta de dados, muitas vezes com base na significância estatística dos testes), narrativa post-hoc (enquadramento de análises exploratórias como análises confirmatórias) e manipulação de outliers (removendo outliers ou deixando outliers em um conjunto de dados para fazer com que um teste estatístico seja significativo).[22][23][24][25] Uma pesquisa com mais de 2.000 psicólogos indicou que a maioria dos entrevistados admitiu usar pelo menos uma QRP.[22] O viés de publicação (consulte a seção "Causas" abaixo) leva a um número elevado de resultados falsos positivos. É agravado pela pressão para publicar, bem como pelo próprio viés de confirmação do autor e é um risco inerente ao campo, exigindo um certo grau de ceticismo por parte dos leitores.[26]
Em segundo lugar, a psicologia e a psicologia social em particular, encontraram-se no centro de vários escândalos envolvendo pesquisas fraudulentas, mais notavelmente a fabricação de dados admitida por Diederik Stapel,[27] bem como alegações contra terceiros.
Em terceiro lugar, vários efeitos na ciência psicológica foram considerados difíceis de replicar, mesmo antes da atual crise de replicação. Por exemplo, a revista científica Judgment and Decision Making publicou vários estudos ao longo dos anos que não fornecem suporte para a teoria do pensamento inconsciente. As replicações parecem particularmente difíceis quando os ensaios de pesquisa são pré-registrados e conduzidos por grupos de pesquisa que não investiram muito na teoria em questão.
Muitos ensaios de pesquisa e metanálises são comprometidos por baixa qualidade e conflitos de interesse que envolvem autores e organizações de defesa profissional, resultando em muitos falsos positivos quanto à eficácia de certos tipos de psicoterapia.[28]
Taxas de replicação da psicologia
Um relatório da Open Science Collaboration em agosto de 2015, coordenado por Brian Nosek, estimou a reprodutibilidade de 100 estudos em ciências psicológicas de três periódicos de psicologia de alto nível.[29] No geral, 36% das replicações produziram resultados significativos (valor de p abaixo de 0,05) em comparação com 97% dos estudos originais que tiveram efeitos significativos. O tamanho médio do efeito nas replicações foi de aproximadamente metade da magnitude dos efeitos relatados nos estudos originais.
Um dilema disciplinar
Destacando a estrutura social que desencoraja a replicação em psicologia, Brian D. Earp e Jim AC Everett enumeraram cinco pontos sobre por que as tentativas de replicação são incomuns: [30][31]
"Replicações independentes e diretas das descobertas de outras pessoas podem consumir muito tempo para o pesquisador que as reproduz."
"[Replicações] tendem a tirar energia e recursos diretamente de outros projetos que refletem o pensamento original do autor."
"[Replicações] geralmente são mais difíceis de publicar (em grande parte porque são consideradas não originais)."
"Mesmo se [as réplicas] forem publicadas, provavelmente serão vistas como exercícios de 'alvenaria', em vez de contribuições importantes para o campo."
"[Replicações] trazem menos reconhecimento e recompensa, e até mesmo segurança básica de carreira, para seus autores."[32]
Na medicina
Dos 49 estudos médicos de 1990–2003 com mais de 1000 citações, 45 afirmaram que a terapia estudada foi eficaz. Destes estudos, 16% foram contestados por estudos subsequentes, 16% encontraram efeitos mais fortes do que os estudos subsequentes, 44% foram replicados e 24% permaneceram amplamente incontestáveis.[33] A Food and Drug Administration dos EUA em 1977–1990 encontrou falhas em 10–20% dos estudos médicos.[34] Em um artigo publicado em 2012, C. Glenn Begley, um consultor de biotecnologia que trabalha na Amgen, e Lee Ellis, da Universidade do Texas, descobriram que apenas 11% de 53 estudos pré-clínicos de câncer poderiam ser replicados.[35] Os estudos irreproduzíveis tinham uma série de características em comum, incluindo que os estudos não foram realizados por investigadores "cegos" para a condição experimental versus as condições de controle, houve uma falha na repetição dos experimentos, uma falta de controles positivos e negativos, falha em mostrar todos os dados, uso inadequado de testes estatísticos e uso de reagentes que não foram devidamente validados.[36]
Na economia
Um estudo de 2016 na revista Science descobriu que um terço dos 18 estudos experimentais de duas revistas de economia de primeira linha (American Economic Review e the Quarterly Journal of Economics) falhou em replicar com sucesso.[37][38] Um estudo de 2017 no Economic Journal sugeriu que "a maioria dos efeitos médios na literatura empírica da economia são exagerados por um fator de pelo menos 2 e pelo menos um terço são exagerados por um fator de 4 ou mais".[39]
Causas
Uma das principais causas da baixa reprodutibilidade é o viés de publicação e o viés de seleção, por sua vez causado pelo fato de que resultados estatisticamente insignificantes raramente são publicados ou discutidos em publicações sobre múltiplos efeitos potenciais. Entre os efeitos potenciais inexistentes (ou minúsculos), os testes estatísticos mostram significância (no nível usual) com 5% de probabilidade. Se um grande número de tais efeitos é rastreado em uma busca para resultados significativos, esses efeitos erroneamente significativos inundam os apropriadamente encontrados e levam a (ainda erroneamente) replicações bem-sucedidas novamente com apenas 5% de probabilidade. Uma proporção crescente de tais estudos diminui progressivamente a taxa de replicação correspondente aos estudos de efeitos plausivelmente relevantes. Resultados erroneamente significativos também podem vir de práticas questionáveis de análise de dados, chamadas de dragagem de dados ou P-hacking, HARKing e graus de liberdade do pesquisador.
C. Glenn Begley e John Ioannidis propuseram essas causas para o aumento na busca por significância:
Geração de novos dados/publicações em um ritmo sem precedentes.
A maioria dessas descobertas não resistirá ao teste do tempo.
Falha em aderir a boas práticas científicas e desespero para publicar ou perecer.
Diversos interesses.
Resposta
A replicação tem sido referida como "a pedra angular da ciência".[40][41] Os estudos de replicação tentam avaliar se os resultados publicados refletem descobertas verdadeiras ou falsos positivos. A integridade das descobertas científicas e a reprodutibilidade da pesquisa são importantes, pois constituem a base de conhecimento sobre a qual estudos futuros são construídos.
Metaciência
Metaciência é o uso de metodologia científica para estudar a própria ciência. A meta-ciência busca aumentar a qualidade da pesquisa científica ao mesmo tempo em que reduz o desperdício. É também conhecida como "pesquisa em pesquisa" e "ciência da ciência ", pois usa métodos de pesquisa para estudar como a pesquisa é feita e onde melhorias podem ser feitas. A metaciência se preocupa com todos os campos de pesquisa e tem sido descrita como "uma visão panorâmica da ciência".[42] Nas palavras de John Ioannidis, "A ciência é a melhor coisa que já aconteceu aos seres humanos ... mas podemos fazer melhor."[43]
Combater o viés de publicação com pré-registro de estudos
Uma inovação recente na publicação científica para lidar com a crise de replicação é o uso de relatórios registrados.[44][45] O formato do relatório registrado exige que os autores apresentem uma descrição dos métodos e análises do estudo antes da coleta de dados. Depois que o método e o plano de análise são examinados por meio da revisão por pares, a publicação dos resultados é provisoriamente garantida, com base no fato de os autores seguirem o protocolo proposto. Um objetivo dos relatórios registrados é contornar o viés de publicação em direção a descobertas significativas que podem levar à implementação de práticas de pesquisa questionáveis e encorajar a publicação de estudos com métodos rigorosos.
Enfatizando as tentativas de replicação no ensino
Com base em cursos de métodos experimentais no MIT, Stanford e na Universidade de Washington, foi sugerido que os cursos de métodos em psicologia e outros campos enfatizem as tentativas de replicação em vez de estudos originais.[46][47][48] Tal abordagem ajudaria os alunos a aprender a metodologia científica e forneceria inúmeras replicações independentes de descobertas científicas significativas que testariam a replicabilidade das descobertas científicas. Alguns recomendam que os alunos de pós-graduação sejam obrigados a publicar uma tentativa de replicação de alta qualidade sobre um tópico relacionado à sua pesquisa de doutorado antes da graduação.[31]
Incentivando amostras maiores
Para melhorar a qualidade das replicações, geralmente são necessários tamanhos de amostra maiores do que aqueles usados no estudo original.[49] Tamanhos de amostra maiores são necessários porque as estimativas de tamanhos de efeito em trabalhos publicados são frequentemente exageradas devido ao viés de publicação e grande variabilidade de amostragem associada a tamanhos de amostra pequenos em um estudo original.[50][51][52] Além disso, o uso de limiares de significância geralmente leva a efeitos inflados, porque particularmente com tamanhos de amostra pequenos, apenas os maiores efeitos se tornarão significativos.[53]
Compartilhando dados em repositórios online
Repositórios online onde dados, protocolos e descobertas podem ser armazenados e avaliados pelo público procuram melhorar a integridade e reprodutibilidade da pesquisa. Exemplos de tais repositórios incluem o Open Science Framework, Registry of Research Data Repositories e Psychfiledrawer.org. Sites como o Open Science Framework oferecem emblemas para o uso de práticas de ciência aberta em um esforço para incentivar os cientistas. No entanto, existe a preocupação de que aqueles com maior probabilidade de fornecer seus dados e códigos para análises sejam os pesquisadores mais sofisticados.[54] John Ioannidis, da Universidade de Stanford, sugeriu que "pode surgir o paradoxo de que os pesquisadores mais meticulosos, sofisticados e conhecedores do método e cuidadosos possam se tornar mais suscetíveis a críticas e ataques de reputação por reanalisadores que buscam erros, não importa o quão insignificantes esses erros sejam".[54]
↑Fidler, Fiona; Wilcox, John (2018). «Reproducibility of Scientific Results». The Stanford Encyclopedia of Philosophy. Metaphysics Research Lab, Stanford University. Consultado em 19 de maio de 2019
↑Staddon, John (2017). Scientific Method: How Science Works, Fails to Work or Pretends to Work. Taylor and Francis.
↑Lehrer, Jonah (13 de dezembro de 2010). «The Truth Wears Off». The New Yorker (em inglês). Consultado em 30 de janeiro de 2020
↑Fiedler, Klaus; Schwarz, Norbert (19 de outubro de 2015). «Questionable Research Practices Revisited». Social Psychological and Personality Science. 7: 45–52. ISSN1948-5506. doi:10.1177/1948550615612150
↑Ioannidis JA (13 de julho de 2005). «Contradicted and initially stronger effects in highly cited clinical research». JAMA. 294: 218–228. PMID16014596. doi:10.1001/jama.294.2.218
↑Glick, J. Leslie (1992). «Scientific data audit—A key management tool». Accountability in Research. 2: 153–168. doi:10.1080/08989629208573811
↑Camerer, Colin F.; Dreber, Anna; Forsell, Eskil; Ho, Teck-Hua; Huber, Jürgen; Johannesson, Magnus; Kirchler, Michael; Almenberg, Johan; Altmejd, Adam (25 de março de 2016). «Evaluating replicability of laboratory experiments in economics». Science (em inglês). 351: 1433–1436. Bibcode:2016Sci...351.1433C. ISSN0036-8075. PMID26940865. doi:10.1126/science.aaf0918
↑Ioannidis, John P. A.; Stanley, T. D.; Doucouliagos, Hristos (1 de outubro de 2017). «The Power of Bias in Economics Research». The Economic Journal (em inglês). 127: F236–F265. ISSN1468-0297. doi:10.1111/ecoj.12461
↑Grahe, Jon E.; Reifman, Alan; Hermann, Anthony D.; Walker, Marie; Oleson, Kathryn C.; Nario-Redmond, Michelle; Wiebe, Richard P. (1 de novembro de 2012). «Harnessing the Undiscovered Resource of Student Research Projects». Perspectives on Psychological Science. 7: 605–607. ISSN1745-6916. PMID26168119. doi:10.1177/1745691612459057
↑Marwick, Ben; Wang, Li-Ying; Robinson, Ryan; Loiselle, Hope (22 de outubro de 2019). «How to Use Replication Assignments for Teaching Integrity in Empirical Archaeology». Advances in Archaeological Practice. 8: 78–86. doi:10.1017/aap.2019.38
↑Maxwell, Scott E.; Lau, Michael Y.; Howard, George S. (2015). «Is psychology suffering from a replication crisis? What does "failure to replicate" really mean?». American Psychologist. 70: 487–498. PMID26348332. doi:10.1037/a0039400
↑IntHout, Joanna; Ioannidis, John P. A.; Borm, George F.; Goeman, Jelle J. (2015). «Small studies are more heterogeneous than large ones: a meta-meta-analysis». Journal of Clinical Epidemiology. 68: 860–869. PMID25959635. doi:10.1016/j.jclinepi.2015.03.017
↑Button, Katherine S.; Ioannidis, John P. A.; Mokrysz, Claire; Nosek, Brian A.; Flint, Jonathan; Robinson, Emma S. J.; Munafò, Marcus R. (1 de maio de 2013). «Power failure: why small sample size undermines the reliability of neuroscience». Nature Reviews Neuroscience. 14: 365–376. ISSN1471-003X. PMID23571845. doi:10.1038/nrn3475
↑ abIoannidis, John P. A. (2016). «Anticipating consequences of sharing raw data and code and of awarding badges for sharing». Journal of Clinical Epidemiology. 70: 258–260. PMID26163123. doi:10.1016/j.jclinepi.2015.04.015