Em estatística, o coeficiente de correlação de postos de Spearman ou rô de Spearman, que recebe este nome em homenagem ao psicólogo e estatístico Charles Spearman, frequentemente denotado pela letra grega (rô) ou , é uma medida não paramétrica de correlação de postos (dependência estatística entre a classificação de duas variáveis). O coeficiente avalia com que intensidade a relação entre duas variáveis pode ser descrita pelo uso de uma função monótona.[1] A correlação de Spearman entre duas variáveis é igual à correlação de Pearson entre os valores de postos daquelas duas variáveis. Enquanto a correlação de Pearson avalia relações lineares, a correlação de Spearman avalia relações monótonas, sejam elas lineares ou não.[2] Se não houver valores de dados repetidos, uma correlação de Spearman perfeita de +1 ou -1 ocorre quando cada uma das variáveis é uma função monótona perfeita da outra.
Intuitivamente, a correlação de Spearman entre duas variáveis será alta quando observações tiverem uma classificação semelhante (ou idêntica no caso da correlação igual a 1) entre as duas variáveis, isto é, a posição relativa das observações no interior da variável (1º, 2º, 3º, etc.), e baixa quando observações tiverem uma classificação dessemelhante (ou completamente oposta no caso da correlação igual a -1) entre as duas variáveis.
O coeficiente de Spearman é apropriado tanto para variáveis contínuas, como para variáveis discretas, incluindo variáveis ordinais.[3] Tanto o de Spearman, como o de Kendall pode ser formulados como casos especiais de um coeficiente de correlação mais geral.
Definição e cálculo
O coeficiente de correlação de Spearman é definido como o coeficiente de correlação de Pearson entre variáveis classificadas em postos.[4]
Para uma amostra de tamanho , os dados brutos são convertidos em postos e é computado a partir de:
em que
denota o usual coeficiente de correlação de Pearson, mas aplicado às variáveis em postos;
Quando há valores idênticos, geralmente se atribui a cada valor um posto fracionário igual à média de suas posições na ordem ascendente dos valores, que é equivalente ao cálculo da média de todas as permutações possíveis.[8]
Se valores repetidos estiverem presentes nos conjuntos de dados, a equação produz resultados incorretos. Apenas se, em ambas as variáveis, todos os postos forem distintos, então, (vide número tetraédrico). A primeira equação — normalizando pelo desvio padrão — pode ser usada até mesmo quando os postos forem normalizados a ("postos relativos"), porque não é sensível tanto à translação, quanto ao escalonamento linear.
Este método também não deve ser usado em casos em que o conjunto de dados estiver truncado, isto é, quando o coeficiente de correlação de Spearman for desejado para os registros do topo (seja pelos postos pré-mudança, pelos postos pós-mudança ou ambos). Neste caso, deve-se usar a fórmula do coeficiente de correlação de Pearson descrita acima.
O erro padrão do coeficiente foi determinado pelo estatístico britânico Karl Pearson em 1907 e pelo matemático britânico Thorold Gosset em 1920, sendo:
Quantidades relacionadas
Correlações de postos de Spearman positiva e negativa
Há várias outras medidas numéricas que quantificam a intensidade da dependência estatística entre parers de observações. A mais comum é o coeficiente de correlação produto-momento de Pearson, que é um método de correlação semelhante ao coeficiente de correlação de postos de Spearman, que mede as relações "lineares" entre números brutos, não entre seus postos.
Um nome alternativo para a correlação de postos de Spearman é "correlação de grau".[9] Nesta denominação, o "posto" de uma observação é substituído pelo "grau". Em distribuições contínuas, o grau de uma observação é, por convenção, sempre uma metade menor que o posto. Assim, as correlações entre graus e postos são iguais neste caso. De forma mais generalizada, o "grau" de uma observação é proporcional ao valor estimado da fração de uma população menor que um dado valor, com o ajuste da meia-observação nos valores observados. Assim, isto corresponde a um tratamento possível de postos empatados. Ainda que incomum, o termo "correlação de grau" ainda está em uso.[10]
Interpretação
O sinal da correlação de Spearman indica a direção da associação entre (a variável independente) e (a variável dependente). Se tende a aumentar quando aumenta, o coeficiente de correlação de Spearman é positivo. Se tende a diminuir quando aumenta, o coeficiente de correlação de Spearman é negativo. Um coeficiente de Spearman igual a zero indica que não há tendência de que aumente ou diminua quando aumenta. A correlação de Spearman aumenta em magnitude conforme e ficam mais próximas de serem funções monótonas perfeitas uma da outra. Quando e são perfeitamente monotonamente relacionadas, o coeficiente de correlação de Spearman se torna 1. Uma relação crescente monótona perfeita implica que, para quaisquer dois pares de valores de dados e , Xi − Xj e Yi − Yj terão sempre o mesmo sinal. Uma relação decrescente monótona perfeita implica que estas diferenças terão sempre sinais opostos.
O coeficiente de correlação de Spearman é frequentemente descrito como sendo "não paramétrico". Isto pode ter dois sentidos. Em primeiro lugar, uma correlação de Spearman perfeita ocorre quando e estão relacionados por qualquer função monótona, em contraste com a correlação de Pearson, que só dá um valor perfeito quando e estão relacionadas por uma função linear. O outro sentido em que a correlação de Spearman é não paramétrica se refere ao fato de que sua exata distribuição de amostragem pode ser obtida sem conhecimento (isto é, sem informação sobre os parâmetros) quanto à distribuição de probabilidade conjunta de e .[11]
Exemplo
Neste exemplo, os dados brutos na tabela abaixo são usados para calcular a correlação entre o QI de uma pessoa e o número de horas em que assiste televisão por semana.
QI,
Horas de TV por semana,
106
7
86
0
100
27
101
50
99
28
103
29
97
20
113
12
112
6
110
17
Primeiro, é necessário achar o valor do termo . Para fazer isto, executam-se os seguintes passos, refletidos na tabela abaixo:
Ordene os dados de acordo com a primeira coluna (). Crie uma nova coluna e atribua a esta coluna os valores dos postos ;
Em seguida, ordene os dados de acordo com a segunda coluna (). Crie uma quarta coluna e, analogamente, atribua a esta coluna os valores dos postos ;
Crie uma quinta coluna para conter as diferenças entre os postos das duas colunas e ;
Crie uma última coluna para conter os quadrados dos valores da coluna .
Este valor baixo mostra que a correlação entre QI e número de horas na frente da TV é muito baixa, ainda que o valor negativo sugira que, quanto mais tempo se passa assistindo televisão, mais baixo o QI. No caso de empates nos dados originais, esta fórmula não deve ser usada. Em vez disso, o coeficiente de correlação de Pearson deve ser calculado nos postos (quando se atribuem postos aos empates, como descrito acima).
Determinação da significância
Uma abordagem para testar se um valor observado de é significantemente diferente de zero ( sempre se manterá entre -1 e 1) consiste em calcular a probabilidade de que seria maior ou igual ao observado, dada a hipótese nula, ao usar um teste de permutação. Uma vantagem desta abordagem é que ela automaticamente leva em conta o número de valores empatados de dados na amostra e a forma como são tratados ao computar a correlação de postos.[12]
Uma abordagem faz paralelo ao uso da transformação de Fisher no caso do coeficiente de correlação produto-momento de Pearson, isto é, intervalos de confiança e testes de hipóteses relativos ao valor da população podem ser conduzidos usando a transformação de Fisher:[13]
Se for a transformação de Fisher de , o coeficiente de correlação de postos de Spearman amostral, e for o tamanho da amostra, então:
que é aproximadamente distribuído como a distribuição t de Student com graus de liberdade sob a hipótese nula.[16] Uma justificação para este resultado se baseia em um argumento de permutação.[17]
Uma generalização do coeficiente de Spearman é útil na situação em que há três ou mais condições, uma quantidade de sujeitos é toda observada em cada uma delas e se prevê que as observações terão uma ordem particular. Por exemplo, cada sujeito deste grupo será avaliado três vezes fazendo a mesma tarefa e se prevê que a performance melhorará a cada avaliação. Um teste da significância da tendência entre condições nesta situação foi desenvolvido por Ellis Batten Page, sendo usualmente chamado de teste de tendência de Page para alternativas ordenadas.[18]
Análise de correspondência baseada no rô de Spearman
A análise de correspondência clássica é um método estatístico que dá um escore para todo valor de duas variáveis nominais. Desta forma, o coeficiente de correlação de Pearson entre eles é maximizado.
Há um equivalente deste método, chamado de análise de correspondência de grau, que maximiza o rô de Spearman e o tau de Kendall.[19]