Coeficiente de correlação ponto-bisserial

O coeficiente de correlação ponto bisserial (rpb) é um coeficiente de correlação utilizado quando uma variável (por exemplo, Y) é dicotômica; Y pode ser "naturalmente" dicotômica, como se o lançamento de uma moeda resulta em cara ou coroa, ou uma variável dicotomizada artificialmente. Na maioria das situações não é aconselhável dicotomizar variáveis artificialmente[carece de fontes?]. Quando uma nova variável é dicotomizada artificialmente a nova variável dicotômica pode ser concebido como tendo uma continuidade subjacente. Se este for o caso, uma correlação bisserial seria o cálculo mais apropriado.

A correlação ponto-bisserial é matematicamente equivalente à correlação de Pearson (produto-momento) correlação, isto é, se temos uma variável X medida continuamente e uma variável Y dicotômica, rXY = rpb. Isso pode ser demonstrado através da atribuição de dois valores numéricos diferentes para a variável dicotômica.

Cálculo

Para calcular rpb, suponha que a variável dicotômica Y assuma os valores 0 e 1. Se o conjunto de dados for dividido em dois grupos, o grupo 1, em que Y recebeu o valor "1" e o grupo 2, em que Y recebeu o valor "0", então o coeficiente de correlação ponto-bisserial é calculado da seguinte forma:

em que sn é o desvio padrão utilizado quando os dados estão disponíveis para todos os membros da população:

sendo M1 o valor médio da variável contínua X para todos os pontos de dados no grupo 1, e M0 o valor médio da variável contínua X para todos os pontos de dados no grupo 2. Além disso, n1 é o número de pontos de dados no grupo 1, n0 é o número de pontos de dados no grupo 2 e n é o tamanho total da amostra. Esta fórmula é uma fórmula que foi derivada a partir da fórmula para rXY, a fim de reduzir os passos no cálculo; ela é mais fácil calcular que rXY.

Há uma fórmula equivalente que utiliza sn−1:

onde sn−1 é o desvio padrão utilizado quando só estão disponíveis os dados para uma amostra da população:

A versão da fórmula usando sn−1 é útil quando o cálculo do coeficiente de correlação ponto-bisserial é feito em uma linguagem de programação ou outro ambiente de desenvolvimento em que há uma função para o cálculo de sn−1, mas não há uma função disponível para o cálculo de sn.

O livro de Glass e Hopkins intitulado Métodos Estatísticos em Educação e Psicologia, (3ª Edição)[1] contém uma versão correta da fórmula ponto bisserial.

O quadrado do coeficiente de correlação ponto bisserial também pode ser escrito como

Pode-se testar a hipótese nula de que a correlação é zero na população. Um pouco de álgebra mostra que a fórmula usual para avaliar a significância de um coeficiente de correlação, quando aplicada a rpb, é a mesma que a fórmula para um t-teste não pareado e assim

segue uma distribuição t de Student com (n1+n0 - 2) graus de liberdade, quando a hipótese nula é verdadeira.

Uma desvantagem do coeficiente ponto bisserial é que quanto mais distante de 50/50 estivar a distribuição de Y, mais restrita será a gama de valores que o coeficiente pode assumir. Se X puder ser considerado normalmente distribuído, um índice descritivo melhor é dado pelo coeficiente bisserial

em que u é a ordenada da distribuição normal, com média zero variância unitária no ponto que divide a distribuição nas proporções n0/n e n1/n. Isso não é fácil de calcular, e o coeficiente bisserial não é amplamente utilizado na prática.

Um caso específico de correlação bisserial ocorre quando X é a soma de algumas variáveis dicotômicas, uma das quais é Y. Um exemplo disto é quando X é a pontuação total de uma pessoa em um teste composto de n itens pontuados dicotomicamente. Uma estatística de interesse (que é um índice de discriminação) é a correlação entre a resposta a um determinado item e as pontuações totais nos testes correspondentes. Há três cálculos amplamente utilizados,[2] e todos são chamados de correlação ponto bisserial: (i) a correlação de Pearson entre a pontuação dos itens e a pontuação total dos testes, incluindo as pontuações do item, (ii) a correlação de Pearson entre as pontuações do item e a pontuação total dos testes excluindo-se as pontuações do item, e (iii) uma correlação ajustada para o viés causado pela inclusão das pontuações do item nas pontuações do teste. A correlação (iii) é

Uma versão ligeiramente diferente do coeficiente de ponto bisserial é o rank bisserial que ocorre quando a variável X consiste de ranks, enquanto Y é dicotômica. O coeficiente poderia ser calculado da mesma forma utilizada quando X é contínua, mas isso teria a mesma desvantagem de que o intervalo de valores que ele pode assumir se tornaria mais restrito conforme a distribuição de Y se tornasse mais desigual. Para contornar isso, nota-se que o coeficiente terá o seu maior valor quando os menores ranks são todos opostos aos 0s e os maiores ranks são opostos aos 1s. Seu menor valor ocorre quando ocorreo o contrário. Estes valores são, respectivamente, mais e menos (n1 + n0)/2. Pode-se, então, usar o recíproco deste valor para dimensionar a diferença entre a média dos ranks observados sobre o intervalo de mais um a menos um. O resultado é

em que M1 e M0 são, respectivamente, as médias dos ranks correspondentes às pontuações 1 e 0 da variável dicotômica. Esta fórmula, que simplifica o cálculo da contagem de coincidências e inversões, é devida a Gene V Glass (1966).

É possível usar isso para testar a hipótese nula de nenhuma correlação na população da qual a amostra foi extraída. Se rrb é calculado como acima, então, o menor valor entre

e

está distribuído como U de Mann–Whitney com tamanhos de amostra n1 e n0 quando a hipótese nula é verdadeira.

Notas

  1. Gene V. Glass and Kenneth D. Hopkins (1995). Statistical Methods in Education and Psychology. Allyn & Bacon 3rd ed. [S.l.: s.n.] ISBN 0-205-14212-5 
  2. Linacre (2008). «The Expected Value of a Point-Biserial (or Similar) Correlation». Rasch Measurement Transactions. 22 

Ligações externas