Em pesquisas estatísticas, quando as subpopulações dentro de uma população geral variam, pode ser vantajoso amostrar cada subpopulação (estrato) independentemente. A estratificação é o processo de dividir os membros da população em subgrupos homogêneos antes da amostragem. Os estratos devem definir uma partição da população. Ou seja, deve ser coletivamente exaustivo e mutuamente exclusivo: cada elemento da população deve ser atribuído a um e apenas um estrato. Em seguida, a amostragem aleatória simples é aplicada dentro de cada estrato. O objetivo é melhorar a precisão da amostra reduzindo o erro amostral. Pode produzir uma média ponderada que tem menos variabilidade do que a média aritmética de uma amostra aleatória simples da população.[1]
Em estatística computacional, a amostragem estratificada é um método de redução de variância quando os métodos de Monte Carlo são usados para estimar estatísticas populacionais de uma população conhecida. [2]
Exemplo
Suponha que precisamos estimar o número médio de votos para cada candidato em uma eleição. Suponha que um país tenha 3 cidades: a cidade A tem 1 milhão de trabalhadores fabris, a cidade B tem 2 milhões de trabalhadores de escritório e a cidade C tem 3 milhões de aposentados. Podemos optar por obter uma amostra aleatória de tamanho 60 em toda a população, mas há alguma chance de que a amostra aleatória resultante seja mal equilibrada entre essas cidades e, portanto, seja tendenciosa, causando um erro significativo na estimativa (quando o resultado de interesse tem uma distribuição diferente, em termos do parâmetro de interesse, entre os municípios). Em vez disso, se escolhermos uma amostra aleatória de 10, 20 e 30 da cidade A, B e C, respectivamente, podemos produzir um erro menor na estimativa para o mesmo tamanho total da amostra. Este método é geralmente usado quando uma população não é um grupo homogêneo.
Se as medições dentro dos estratos tiverem um desvio padrão mais baixo (em comparação com o desvio padrão geral na população), a estratificação fornece um erro menor na estimativa.
Para muitas aplicações, as medições se tornam mais gerenciáveis e/ou mais baratas quando a população é agrupada em estratos.
Quando é desejável ter estimativas de parâmetros populacionais para grupos dentro da população - a amostragem estratificada verifica se temos amostras suficientes dos estratos de interesse.
Desvantagens
A amostragem estratificada não é útil quando a população não pode ser exaustivamente particionada em subgrupos disjuntos. Seria uma aplicação errônea da técnica tornar os tamanhos das amostras dos subgrupos proporcionais à quantidade de dados disponíveis dos subgrupos, em vez de dimensionar os tamanhos das amostras para os tamanhos dos subgrupos (ou para suas variações, se souberem que variam significativamente - por exemplo, por meio de um Teste F). Os dados que representam cada subgrupo são considerados de igual importância se a suspeita de variação entre eles justificar uma amostragem estratificada. Se as variâncias dos subgrupos diferirem significativamente e os dados precisarem ser estratificados pela variância, não é possível tornar simultaneamente o tamanho da amostra de cada subgrupo proporcional ao tamanho do subgrupo dentro da população total. O problema da amostragem estratificada no caso de classes a priori desconhecidas (razão de subpopulações em toda a população) pode ter efeito deletério no desempenho de qualquer análise no conjunto de dados, por exemplo, classificação. A esse respeito, a razão de amostragem minimax pode ser usada para tornar o conjunto de dados robusto em relação à incerteza no processo de geração de dados subjacente.
Média e erro padrão
A média e a variância da amostragem aleatória estratificada são dadas por: [3]