A lei de Benford, também chamada de lei do primeiro dígito,[4][5]lei de Newcomb-Benford e lei números anômalos refere-se à distribuição de dígitos em várias fontes de casos reais.[6] Ao contrário da homogeneidade esperada, a lei afirma que em muitas coleções de números que ocorrem naturalmente, o primeiro dígito significativo provavelmente será pequeno. Sem homogeneidade, esta distribuição mostra que o dígito 1 tem 30% de chance de aparecer em um conjunto de dados estatísticos enquanto valores maiores tem menos possibilidade de aparecer.[7]
Frank Benford demonstrou que esse resultado se aplica a uma ampla variedade de conjuntos de dados, incluindo contas de eletricidade, endereços, preços de ações, preços de casas, números de população, taxas de mortalidade, comprimentos de rios, constantes físicas e matemáticas. pelas leis de potência (que são muito comuns na natureza). Todas essas afirmações são calculadas ou definidas junto a uma escala logarítmica.
Definição matemática
Um conjunto de números satisfaz a lei de Benford[8] se o primeiro dígito d (d ∈ {1, ..., 9}) ocorre com a seguinte probabilidade:[9][10]
d
Probabilidade de ser o primeiro dígito
1
30.1%
30.1
2
17.6%
17.6
3
12.5%
12.5
4
9.7%
9.7
5
7.9%
7.9
6
6.7%
6.7
7
5.8%
5.8
8
5.1%
5.1
9
4.6%
4.6
História
As primeiras observações a respeito deste fenômeno foram feitas pelo astrônomo Simon Newcomb, por volta de 1881, ao notar que as primeiras páginas de livros de logaritmo, utilizados na época para realizar cálculos logarítmicos, eram muito mais utilizadas do que as últimas páginas[11]. Isso o levou a propor que, em qualquer lista de números tirados de um conjunto aleatório, o conjunto de números que começam com ‘1’ tende a ser maior. Em seus estudos, Newcomb sugere que a probabilidade de um único número N ser o primeiro dígito de um número era igual a log(N+1) - log(N).
O fenômeno foi esquecido por um tempo até ser redescoberto pelo físico Frank Benford, por volta de 1938[12]. Frank Benford coletou dezena de milhares de números de 20 domínios diferentes, dentre eles estavam áreas de superfície de 335 rios, tamanho de populações de 3259 locais dos EUA, 104 constantes físicas, 1800 pesos moleculares, 5000 entradas de um livro matemático, 308 números contidos em uma edição da Reader’s Digest, os 342 primeiros endereços listados na American Men of Science e 418 taxas de mortalidade. O total de números utilizados no paper chegou a 20.229 e todos seguiam a mesma distribuição. A descoberta deste padrão foi nomeada posteriormente de Benford.
Em 1995, o matemático Theodore P. Hill conseguiu provar o fenômeno por trás das distribuições.[13]
Generalização
A lei de Benford pode ser estendida para além do primeiro dígito[14]. Em particular, a probabilidade de encontrar um número começando com a cadeia de números n é dada pela função:
Dessa forma, probabilidade de um número começar com 1, 2, 3 é de log10(1 + 1/123) ≈ 0.003516.
O resultado acima permite encontrar a probabilidade de um número específico ser encontrado em uma determinada posição dentro de um número. Por exemplo, a probabilidade do número 2 ser encontrado como segundo digito de um número é de:[14]
E a probabilidade de um número d,0 > d> 9, ser encontrado na n-ésima posição é de:
A distribuição probabilística do n-ésimo dígito, à medida que n aumenta, aproxima-se rapidamente de uma distribuição uniforme com 10% para cada um dos dez dígitos[14]. Geralmente, quatro dígitos são suficientes para assumir uma distribuição uniforme de 10%, já que 0 aparece 10,0176% do tempo no quarto dígito, enquanto 0 aparece 9,9824% do tempo.
Probabilidades
0
1
2
3
4
5
6
7
8
9
1º posição
—
30.1%
17.6%
12.5%
9.7%
7.9%
6.7%
5.8%
5.1%
4.6%
2º posição
12%
11.4%
10.9%
10.4%
10%
9.7%
9.3%
9%
8.8%
8.5%
3º posição
10.2%
10.1%
10.1%
10.1%
10%
10%
9.9%
9.9%
9.9%
9.8%
Aplicações
Detecção de Fraude Contábil
Em 1972, Hal Varian sugeriu que a lei de Benford poderia ser utilizada para detectar possíveis fraudes em lista de dados socioeconômicos apresentados em apoio a decisões de planejamento público. Com base na suposição de que as pessoas que compõem os números tendem a distribuir seus dígitos razoavelmente uniformemente, uma comparação simples da distribuição de frequência de primeiro dígito dos dados com a distribuição esperada de acordo com a lei de Benford deve mostrar quaisquer resultados anômalos.
Seguindo isso, Mark Nigrini mostrou que a lei de Benford poderia ser usada em contabilidade e auditoria forense como um indicador de fraude. Na prática, as aplicações da lei de Benford para detecção de fraude usam mais do que o primeiro dígito.[15]
Prova Judicial
Nos EUA, evidências baseadas na Lei de Benford já foram admitidas em casos criminais nos níveis local, federal e estadual.[16]
Dados Eleitorais
Walter Mebane, um cientista político e estatístico da Universidade de Michigan, foi o primeiro a aplicar o teste da lei de Benford para o segundo dígito (2BL-test) em análise forense de dados eleitorais.[17] Tais análises não são consideradas provas, mas sim mero indício de possível fraude, visto que é um método de identificação de irregularidades em resultados de eleições simples, mas não à prova de erros. O método pode deixar de detectar discrepâncias em eleições fraudadas, assim como pode apontar fraudes em ocasiões onde não ocorreram.[18]
Um estudo de 2011 dos cientistas políticos Joseph Deckert, Mikhail Myagkov e Peter C. Ordeschook do California Institute of Technology concluiu que aplicar a lei de Benford como um indicador estatístico de fraude eleitoral é "problemática e enganadora".[19] Nesse artigo cientifico foram simulados eleições justas e fraudulentas, bem como utilizado bancos de dados, e não foi observada nenhuma correlação entre o desvio da lei de Benford e fraudes eleitorais. Nas palavras dos autores "Não é que simplesmente a lei [de Benford] ocasionalmente julga errado que uma eleição justa seja fraudulenta ou que uma eleição fraudulenta é justa. A 'taxa de acerto' da lei é essencialmente um lançar de moedas, acarretando no melhor dos casos uma ferramenta de análise problemática e no pior sendo totalmente enganadora."[19]
Em resposta a este trabalho, Mebane criticou o uso de simulações mas concordou que existem várias ressalvas em aplicar a lei de Benford a dados eleitorais.[20]
A lei de Benford foi invocada como indício de fraude nas eleições iranianas de 2009[21], e também usada para analisar outros resultados eleitorais. Entretanto, outros especialistas consideram que a lei de Benford não se aplica em alguns tipos de sistemas dinâmicos.[22][23]
A lei de Benford também já foi incorretamente aplicada para alegar fraude eleitoral. Após a eleição presidencial nos Estados Unidos em 2020, "especialistas" apontaram para o fato de que a distribuição dos primeiros dígitos dos números de votos do vencedor Joe Biden não seguia a lei de Benford. Esta análise incorre em erro ao aplicar a lei de Benford em dados com muito pouca variação em escala, violando a premissa inerente à lei de Benford de que os valores dos dados observados tenham grande variação de escala. De acordo com Mebane, "É amplamente conhecido que os primeiros dígitos das contagens de votos não são úteis para o diagnóstico de fraudes eleitorais."[24][25]
Dados Macroeconômicos
Os dados macroeconômicos relatados pelo governo grego à União Européia antes de entrar na zona do euro mostraram-se provavelmente fraudulentos usando a lei de Benford.[26]
Análise de dígitos de preços
A importância deste índice de referência para a detecção de irregularidades nos preços foi demonstrada pela primeira vez num estudo à escala europeia que investigou os preços praticados antes e depois da introdução do euro . A introdução do euro em 2002, com suas diversas taxas de câmbio, distorceu os padrões de preços nominais existentes e, ao mesmo tempo, manteve os preços reais. Enquanto os primeiros dígitos dos preços nominais distribuídos de acordo com a lei de Benford, o estudo mostrou um claro desvio deste índice para o segundo e terceiro dígitos em preços nominais de mercado com uma clara tendência para preços psicológicos após o choque nominal da introdução do euro.[27]
Análise de dados do genoma
O número de quadros de leitura abertos e sua relação com o tamanho do genoma difere entre eucariontes e procariontes, sendo que o primeiro apresenta uma relação log-linear e o segundo, uma relação linear. A lei de Benford foi usada para testar essa observação com um excelente ajuste aos dados em ambos os casos.[28]
Detecção de fraude científica
Um teste de coeficientes de regressão em artigos publicados mostrou concordância com a lei de Benford. Um grupo de controle fabricou estimativas estatísticas e os resultados fabricados não obedeceram a lei de Benford.[29]
↑Formann AK (2010) The Newcomb-Benford Law in its relation to some common distributions. PLoS 5(5): e10541. doi:10.1371/journal.pone.0010541
↑Nigrini, M. (1996). «A taxpayer compliance application of Benford's Law». J Amer Tax Assoc. 18: 72–91
↑Durtschi, C; Hillison, W; Pacini, C (2004). «The effective use of Benford's Law to assist in detecting fraud in accounting data». J Forensic Accounting. 5: 17–34