Correlação

Este artigo abrange a correlação entre duas variáveis. O termo correlação pode também significar a relação invertida de duas funções ou a correlação eletrônica em sistemas moleculares.

Em probabilidade e estatística, correlação, dependência ou associação é qualquer relação estatística (causal ou não causal) entre duas variáveis[1] e correlação é qualquer relação dentro de uma ampla classe de relações estatísticas que envolva dependência entre duas variáveis.[2] Por exemplo, a correlação entre a estatura dos pais e a estatura dos pais e dos filhos. Embora seja comumente denotada como a medida de relação entre duas variáveis aleatórias,[2][3] correlação não implica causalidade.[4] Em alguns casos, correlação não identifica dependência entre as variáveis. Em geral, há pares de variáveis que apresentam forte dependência estatística, mas que possuem correlação nula. Para este casos, são utilizadas outras medidas de dependência.[5]

Informalmente correlação é sinônimo de dependência. Formalmente variáveis são dependentes se não satisfizerem a propriedade matemática da independência probabilística. Em termos técnicos, correlação refere–se a qualquer um dos vários tipos específicos de relação entre os valores médios. Existem diferentes coeficientes de correlação ( ou ) para medir o grau de correlação. Um dos coeficientes de correlação mais conhecidos é o coeficiente de correlação de Pearson, obtido pela divisão da covariância de duas variáveis pelo produto dos seus desvios padrão[6] e sensível a uma relação linear entre duas variáveis.[7] Entretanto, há outros coeficientes de correlação mais robustos que o coeficiente de correlação de Pearson. Isto é, mais sensíveis às relações não lineares.[8][9][10]

Histórico

Os conceitos de correlação e de regressão originaram—se nos anos de 1880 com Sir Francis Galton (1822 – 1911), de acordo com sua autobiografia Memories of My Life, publicada em 1890.[11] Em seus estudos sobre o diâmetro das sementes das ervilhas—de—cheiro, Galton chegou à equação de reversão à média:

,

em que são o diâmetro das sementes das plantas filhas, são o diâmetro das sementes das plantas pais e é a reversão (posteriormente, regressão). Em suas pesquisas sobre a comparação entre estaturas de pais e filhos, Galton usou o termo regressão pela primeira vez para denotar a regressão à média da população observada. Com base na análise da tábua de frequência bidimensional representada pelas alturas dos filhos adultos e meio—pais (média do pai e da mãe), Galton chegou à fórmula da superfície da representação gráfica (atualmente, a fórmula da função normal bidimensional) e à expressão da co—relação (atualmente, correlação) como conseqüência das variações devidas a causas comuns.[12]

O desenvolvimento da correlação, com a publicação de Natural Inheritance em 1889, marca o início do período moderno da estatística. A correlação prometia ser útil em muitos campos científicos, especialmente diante da necessidade de estabelecer diretrizes de causalidade. Entretanto, na época de Galton a disciplina de teoria estatística era não existia na Inglaterra (não havia curso universitário revistas especializadas sobre o assunto). Então, Galton percebeu que regressão e correlação poderiam ser o ponto de partida de uma nova disciplina, embora fosse preciso organizar as contribuições dispersas e estruturar o conhecimento de modo sistemático. Por volta de 1890, este contexto começou a chamar atenção de estatísticos e jovens cientistas como Edgeworth, Weldon e Pearson.[13]

Weldon e Pearson

A expressão de correlação foi modificada pelo professor de Zoologia em Cambridge Walter Frank Raphael Weldon (1860 – 1906), que incorporou o sinal positivo e o sinal negativo a partir da análise das dimensões de 22 pares de órgãos de várias espécies de camarões. Entretanto, a atual fórmula do coeficiente de correlação foi determinada em 1896 por Karl Pearson (1857 – 1936).[12] Em Mathematical Contributions to the Theory of Evolution, Pearson publicou entre 1893 e 1912 suas contribuições para a análise de regressão, o coeficiente de correlação e o teste qui—quadrado de significância estatística. Especialmente, o coeficiente de correlação produto—momento de Pearson com foi desenvolvido com base em um conjunto de dados sobre estatura de pais e filhos (inicialmente coletados por Galton), tornando—se a primeira medida de força de associação em estatística.[14]

Edgeworth

Em 1892, Francis Ysidro Edgeworth (1845 – 1926) publicou parte do seu trabalho sobre correlação em Philosophical Magazine com base nas contribuições prévias de Galton. Nos artigos Correlated Averages e The Law of Error and Correlated Averages, Edgeworth introduziu o termo coeficiente de correlação, forneceu a primeira análise matemática de correlação e mostrou sua relação com a distribuição multivariada normal. Entre 1893 e 1895, Edgeworth publicou a continuação do seu trabalho sobre correlação na Philosophical Magazine e na Journal of the Royal Statistcal Society. Por exemplo, o resumo de Recent Contributions to thew Theory of Statistics, que culminou em quatro importantes trabalhos Statistics on Unprogressive Communities, The Assymetrical Probability Curve, The Compound Law of Error e Supplementary Notes on Statistics.[15]

Correlação linear

Os diferentes setores da sociedade utilizam amostras de populações , em vez de populações de dados , para auxiliar nas análises dos objetivos das suas áreas de conhecimento. Isto ocorre porque um conjunto reduzido de dados () torna o processo mais econômico e mais rápido do ponto de vista matemático. Isto deve–se aos erros de arredondamentos dos cálculos que são feitos em estatística, considerando que uma grande quantidade de dados envolve mais cálculos que uma pequena quantidade de dados.[16]

Correlação populacional

A correlação populacional trata da medida da direção e do grau com que as variáveis e se associam linearmente em uma população. O coeficiente de correlação populacional entre duas variáveis e com valores esperados e e desvios padrão e é definido como:

em que é o operador do valor esperado, é a covariância e é uma notação alternativa para coeficiente de correlação.[17]

O coeficiente de correlação é simétrico: .[18]

O coeficiente de correlação de Pearson é +1 no caso de uma relação linear (correlação) direta perfeita (crescente), -1 no caso de uma relação linear (anticorrelação) decrescente perfeita (inversa) e qualquer valor no intervalo aberto (-1, 1) nos outros casos indicando o grau de dependência linear entre as variáveis.[19] É um corolário da desigualdade de Cauchy–Schwarz, em que a correlação não pode exceder 1 em valor absoluto. Quanto mais próximo de 0, mais fraca a correlação entre as variáveis (mais próximas de não correlacionados). Quando mais próximo de -1 ou +1, mais forte a correlação entre as variáveis.[20]

Se as variáveis forem independentes, o coeficiente de correlação de Pearson é 0. Entretanto, o contrário não é verdadeiro porque o coeficiente de correlação detecta apenas dependências lineares entre duas variáveis. Por exemplo, suponha–se que a variável aleatória é simetricamente distribuída em torno de 0 e que a variável aleatória . Então, é completamente determinada por , de modo que e são perfeitamente dependentes, mas a correlação entre elas é 0. Em outras palavras, as variáveis não são correlacionadas. Entretanto, no caso especial em que e são conjuntamente normais, não correlação é equivalente à independência.[17]

Correlação amostral

Coeficiente de correlação de Pearson

A correlação amostral trata da medida da direção e do grau com que as variáveis e se associam linearmente em uma amostra. Karl Pearson desenvolveu o coeficiente amostral a partir de uma ideia semelhante, porém ligeiramente diferente da de Francis Galton. Então, o coeficiente amostral pode ser chamado de coeficiente produto–momento de Pearson, coeficiente de correlação de Pearson ou simplesmente coeficiente de correlação, que é a medida mais conhecida de dependência entre duas variáveis quantitativa.[7]

Para uma série de medições de e , e para , o coeficiente de correlação da amostra pode ser usado para estimar o coeficiente de correlação de Pearson da população entre e . Então, o coeficiente de correlação da amostra é escrito como:

,

em que e são as médias amostrais de e .[6]

O coeficiente de correlação de Pearson é definido apenas se os desvios padrão e forem finitos e diferentes de zero. Isto também pode ser escrito como:

[6]

Se e são resultados de medições que contêm erros de medições, os limites realistas no coeficiente de correlação não são -1 para +1, mas um intervalo menor.[21]

No caso de um modelo linear com uma única variável independente, o coeficiente de determinação é o quadrado do coeficiente de correlação de Pearson .[22]

Propriedades de para variáveis e

  1. : relação linear perfeita e positiva
  2.  : inexistência linear
  3. : relação linear perfeita e negativa
  4.  : relação linear positiva
  5.  : relação linear negativa
  6. Se os valores das variáveis e são convertidos para uma escala diferente, o valor de não é alterado
  7. O valor de não é afetado pela escolha das variáveis ou
  8. Permutando e , o valor de não é alterado
  9. Mede direção e o grau (intensidade) com que as variáveis e as quais se associam linearmente
  10. Não é útil para casos não-lineares[23]

Interpretação geométrica

As duas séries de valores e podem ser consideradas vetores em um espaço de dimensão . Com a substituição por vetores centrados nas médias, têm-se e .

O cosseno do ângulo entre os vetores e , usando a norma euclidiana e o produto escalar normalizado, é dado pela fórmula:[24]

,

Portanto, , em que está sempre -1 e 1.

O coeficiente de correlação é o cosseno do ângulo entre os dois vetores centrados:[24]

  • Se , então e os dois vetores são colineares (paralelos);
  • Se , então e os dois vetores são ortogonais;
  • Se , então e os dois vetores são colineares, mas em direções opostas.

Mais genericamente, , em que é a função inversa do cosseno. representa, do ponto de vista geométrico, a intensidade da correlação entre os dois vetores aleatórios e , o que não pode ser medido em um teste de significância.[24]

Mais genericamente, , em que é o inverso da função cosseno. Do ponto de vista geométrico, não se fala em correlação linear. O coeficiente de correlação sempre tem um significado, independentemente do valor entre -1 e 1.

Correlação não linear

Coeficiente de correlação (ETA)

O coeficiente de correlação (ETA) ou razão de correlação mede a intensidade de associação entre variável dependente e independente para casos não–lineares. Isto é, trata a relação de uma variável quantitativa e outra variável categórica ou nominal . Expressa–se em percentagem. Assume valores entre 0 e 1.[25]

O coeficiente de correlação  é dado pela expressão matemática:

Onde, é uma função. Ou seja, .[26]

Correlação de postos de Spearman

A correlação de postos de Spearman é utilizada para a relação entre dados não–lineares. Quando os dados de uma amostra são ordenados de forma crescente, obtém–se uma condição de ordem para que cada elemento ordenado seja um posto.

A correlação de postos de Spearman é dada pela expressão matemática:

,

em que , cm que e variando de 1 a , sendo a quantidade de elementos da amostra.[27]

Correlação de postos de Kendall

A correlação de postos de Kendall, também conhecido como de Kendall, é uma medida a partir de uma amostra de dados ordenados como a correlação de postos de Spearman. A vantagem de de Kendall é a generalização para um coeficiente de correlação parcial.

A correlação de Kendall é dada pela expressão matemática:

,

em que são os números de pares concordantes, são os números de pares discordantes e é a quantidade de elementos da amostra.[28]

Classificação dos coeficientes de correlação

Coeficientes de correlação como correlação de postos de Spearman e de Kendall medem a como uma variável aumenta enquanto outra variável também aumenta, sem exigir que o aumento seja representado por uma relação linear. Se, à medida que uma variável aumenta, uma outra variável diminui, os coeficientes de correlação de postos serão negativos. É comum considerar estes coeficientes de correlação de postos como alternativas ao coeficiente de correlação de Pearson, usado tanto para reduzir a quantidade de cálculo quanto para tornar o coeficiente menos sensível para distribuições não normais. Entretanto, esta visão tem pouca base matemática, na medida em que coeficientes de correlação de postos medem um tipo de relação diferente do coeficiente de correlação de Pearson e são melhor vistos como medidas de um tipo de associação diferente em vez de medidas alternativas do coeficiente de correlação da população.[29][30]

Para ilustrar a natureza dos coeficientes de correlação de postos, sejam os seguintes pares de números . De um par para outro, e aumentam. A relação é perfeita no sentido que o aumento de sempre é acompanhado do aumento de . Isto corresponde a uma correlação de posto perfeita e tanto a correlação de postos de Spearman quanto o de Kendall são iguais a 1, enquanto que o coeficiente de correlação de Pearson é igual a 0,7544, indicando que os pontos estão longe de cair em uma linha reta. Da mesma maneira, se sempre diminuir quando aumentar, o coeficiente de correlação de postos será -1 enquanto o coeficiente de correlação de Pearson poderá ou não poderá ser próximo de -1, dependendo do quão próximo os pontos estiverem de uma linha reta. Embora em casos extremos de correlação de posto perfeita ambos os coeficientes seja iguais (+1 ou -1), este geralmente não é o caso. Então, valores de dois coeficientes não podem ser comparados. Por exemplo, para os três pares a correlação de postos de Spearman é e o de Kendall é .[29]

Regressão linear

A regressão linear estuda a relação entre muitas ou poucas variáveis. A relação entre duas variáveis é chamada de regressão linear simples. A relação entre mais de duas variáveis é chamada de regressão linear múltipla.[31]

Regressão linear simples

A regressão linear simples estuda a relação entre uma variável independente e outra variável dependente , ambas quantitativas. A regressão linear resulta em uma equação sobre o comportamento das variáveis e :

,

em que é a variável resposta associada a –ésima observação de , é a –ésima observação do valor independente e fixado para a variável independente , é o erro aleatório para –ésima observação e, e são os parâmetros que precisam ser estimados.[32]

Por meio da correlação linear, encontra–se o gráfico de uma reta que possui as características de coeficiente angular e de coeficiente linear. Em termos matemáticos, a equação geral de uma reta é dada por , em que é o coeficiente angular e é o coeficiente linear. Como a regressão linear é uma equação de uma reta, em que é o coeficiente linear e o coeficiente angular para o mesmo grupo de dados amostrais, admite–se e . Portanto, encontrando–se uma correlação linear de uma amostra de dados, obtém–se a estimação dos parâmetros e para a regressão linear.[32]

Uma regressão linear é construída a partir de uma reta , determinada por uma correlação linear. Então, possui pontos cartesianos para determinar o coeficiente linear e o coeficiente angular para estabelecer os parâmetros e da regressão linear. Como e são observações amostrais e é o erro amostral, encontra–se o valor . Uma reta de regressão pode ser determinada somente com os valores e .[32]

Método dos mínimos quadrados

O cálculo do coeficiente de correlação entre duas variáveis é dado pelo ajuste linear. Para o cálculo das características da linha, o erro cometido ao representar a relação entre as variáveis precisa ser o menor possível. Embora não seja o único critério possível, na maioria das vezes minimiza–se a soma de todos os erros cometidos ao quadrado. Isto é chamado de ajuste para o método dos mínimos quadrados, que resulta na linha de regressão (quanto melhor a qualidade de representação da relação entre as variáveis pela linha de regressão, maior a associação do coeficiente de correlação linear).[33] O método dos mínimos quadrados é uma forma ágil para determinar os parâmetros desconhecidos para uma equação resultante de uma regressão linear, uma vez que minimiza a soma dos quadrados dos resíduos. O método dos mínimos quadrados é útil se os resíduos tiverem distribuição normal.[34]

Exemplos

Área comercial (correlação linear)

O setor comercial procura investir em propagandas para aumentar as vendas. Um gráfico de dispersão mostra se há uma correlação linear entre vendas e custo de propaganda. Supondo que uma empresa tem o cenário conforme a tabela abaixo.[35]

A partir do gráfico de dispersão da tabela acima, encontra–se uma correlação linear que mostra uma tendência entre investimento em propaganda e retorno positivo em vendas. É possível estimar um retorno de vendas com um aumento no custo em propaganda pelo cálculo matricial por meio da equação geral da reta , em que são os valores independentes que correspondem aos custos de propaganda e são os valores de retorno tratados para o cálculo do vetor chamado na tabela A de lucro sobre cada item. Esse cálculo é uma generalização método dos mínimos quadrados.[35]

Então,

A relação entre as variáveis é:

,

em que .

Realizando-se o cálculo entre as matrizes, obtém-se:

Portanto, com um investimento de 12 mil reais em propaganda no próximo mês, o lucro será de:

Área da saúde (correlação não linear)

Para se manter saudável, o consumo de água é indispensável. Uma gestora pública solicita à uma consultoria para verificar se há relação entre o consumo de água e a massa corporal de uma pessoa. A tabela B mostra indivíduos que fazem o consumo de água.[36]

Com a elaboração do diagrama de dispersão sobre a Tabela B, torna-se intuitivo pela plotagem (visualização) a não linearização entre massa e consumo de água. Embora necessárias, a intuição e a visualização não são suficientes para provar que não há relação linear. Dessa forma, o cálculo pelo coeficiente de Pearson facilita a demonstração da ausência de linearização para o objetivo da gestora pública. Para o cálculo é utilizado neste exemplo a segunda versão do coeficiente de Pearson, embora visualmente a fórmula seja mais extensa, ela é mais direta. Então,

[6]

Análise rápida sobre o cálculo

Neste exemplo, o coeficiente de Pearson tem o numerador igual a zero. Portanto, a razão é zero, o que significa inexistência linear. Em cálculo,

.[6]

A consultoria retorna a demonstração e a plotagem dos dados para a gestora pública que determina os planos de ações sobre o controle da reserva de água.[36]

Outras medidas de dependência entre variáveis

A informação fornecida por um coeficiente de correlação não é suficiente para definir a estrutura de dependência entre variáveis.[37] O coeficiente de correlação define completamente a estrutura de dependência apenas em casos particulares como uma distribuição normal multivariada. No caso de distribuições elípticas, caracteriza as (hiper)elipses de igual densidade. Entretanto, não caracteriza completamente a estrutura de dependência. Por exemplo, os graus de liberdade de uma distribuição t multivariada determinam o nível de dependência de cauda.[38]

Correlação da distância Foi introduzida para endereçar a deficiência da correlação de Pearson que pode ser 0 para variáveis dependentes. Uma correlação de distância igual a 0 implica independência.[39][40]

Coeficiente de dependência randomizado É uma medida baseada em cópula computacionalmente eficiente da dependência entre variáveis multivariadas. O coeficiente de dependência randomizado é invariante em relação a escalas não lineares de variáveis e é capaz de descobrir uma ampla variedade de padrões de associação funcionais e assume o valor 0 na independência.[21]

Proporção de correlação — É capaz de detectar praticamente qualquer dependência funcional.[41][42]

Informação mútua baseada na entropia / Correlação total / Correlação total dupla — São capazes de detectar ainda mais dependências gerais. Estas medidas de dependência às vezes são referidas como medidas de correlação de múltiplos momentos em comparação com aquelas medidas de dependência que consideram apenas a dependência do segundo momento (pairwise ou quadrática).[42]

Correlação policórica É outra correlação aplicada a dados ordinais que buscam estimar a correlação entre as variáveis latentes teorizadas. Uma forma de capturar uma visão mais completa da estrutura de dependência é considerar uma cópula entre elas.[42]

Coeficiente de determinação — Generaliza o coeficiente de correlação para relações além da regressão linear simples.[43]

Sensibilidade à distribuição dos dados

Os coeficientes de correlação de Pearson / Spearman entre e são mostrados quando os intervalos das duas variáveis são irrestritos e quando o intervalo de é restrito ao intervalo (0,1).

O grau de dependência entre as variáveis e não depende da escala, na qual as variáveis são expressas. Isto é, quando se analisa a relação entre e , a maior parte das medidas de correlação não são afetadas pela transformação de em e de em , em que são constantes (sendo positivos). Isto é verdade para algumas estatísticas de correlação, assim como para os análogos da sua população. Algumas estatísticas de correlação como o coeficiente de correlação de postos também são invariantes para transformações monótonas de distribuições marginais de e/ou .[44]

A maioria das medidas de correlação são sensíveis à maneira pela qual e são amostradas. As dependências tendem a ser mais fortes se vistas sobre uma variedade mais ampla de valores. Portanto, se for considerado o coeficiente de correlação entre as alturas dos pais e filhos entre todos os homens adultos e isto for comparado com o mesmo coeficiente de correlação calculado quando os pais selecionado têm entre 1,65m e 1,70m de altura, a correlação será mais fraca no último caso. Várias técnicas que foram desenvolvidas que tentam corrigir a restrição do intervalo em uma ou em ambas as variável são comumente usadas em metanálise. As equações do caso III e do caso II de Thorndike são as mais comuns.[45]

Várias medidas de correlação em uso podem ser indefinidas para certas distribuições conjuntas de e . Por exemplo, o coeficiente de correlação de Pearson é definido em termos de momentos. Portanto, será indefinido se os momentos também forem indefinidos. As medidas de dependência basedas em quantis são sempre definidas. As estatísticas baseadas em amostras que estimam as medidas populacionais de dependência podem ou não podem ter propriedades estatísticas desejáveis, como não ser viesada ou assintoticamente consistente, com base na estrutura espacial da população a partir da qual os dados foram amostrados.[carece de fontes?]

A sensibilidade à distribuição dos dados tem uma vantagem. Por exemplo, a correlação em escala é designada para usar a sensibilidade ao intervalo para identificar correlações entre componentes rápidos de séries temporais. Reduzindo o intervalo de valores de maneira controlada, as correlações em uma longa escala de tempo são filtradas e apenas as correlações em uma curta escala de tempo são reveladas.[46]

Matrizes de correlação

A matriz de correlação de variáveis é a matriz , cujo -ésimo elemento da matriz é . Se as medidas de correlação usadas são coeficientes de produto—momento, a matriz de correlação é igual a matriz de covariância das variáveis padronizadas para  . Isto é aplicado tanto para matriz de correlações populacionais (caso em que denota o desvio padrão populacional) quanto para matriz de correlações amostrais (caso em que denota o desvio padrão amostral). Consequentemente, cada uma é necessariamente uma matriz semidefinida—positiva. Além disso, a matriz de correlação é estritamente definida positiva se nenhuma variável puder ter todos os seus valores exatamente gerados como uma combinação linear dos outros. A matriz de correlação é simétrica porque a correlação entre e é igual a correlação entre e . Por exemplo, uma matriz de correlação aparece, por exemplo, na fórmula para o coeficiente de correlação múltipla (), uma medida de qualidade de ajuste em regressão múltipla: , onde é o vetor de correlações entre as variáveis independentes e a variável dependente e é a matriz de correlação.

Interpretação

Exemplos de coeficientes de correlação. Nas duas primeiras linhas, ocorre correlação linear. Na terceira linha, ocorre correlação não linear.
Correlação Negativa Positiva
Baixa de -0,5 à 0 de 0 à 0,5
Alta de -1 à -0,5 de 0,5 à 1

É igual a 1, se uma das variáveis é uma função linear crescente da outra variável. É igual a -1, se uma variável é uma função decrescente. Os valores intermédios fornecem informações sobre o grau de dependência linear entre as duas variáveis.[19] Quanto mais próximo o coeficiente estiver dos valores extremos -1 e 1, mais forte é a correlação linear entre as variáveis.[20] Uma correlação igual a 0 significa que as variáveis não estão linearmente correlacionadas, mas podem estar correlacionado de forma não linear.[17]

O coeficiente de correlação não é sensível às unidades de cada variável. Por exemplo, o coeficiente de correlação linear entre a idade e o peso de uma pessoa será a mesma idade medida em semanas, meses ou anos. Entretanto, este coeficiente de correlação é extremamente sensível à presença de outliers no conjunto de dados (valores muito discrepantes, que podem ser considerados exceções).[47]

Vários autores propuseram diretrizes para a interpretação de um coeficiente de correlação. No entanto, Jacob Cohen observa que estes critérios são de certa forma arbitrários e não devem ser muito estritamente observados. A interpretação de um coeficiente de correlação depende do contexto e dos objetivos. Por exemplo, uma correlação de 0,9 pode ser considerada muito baixa se uma lei física for verificada utilizando ferramentas de qualidade, mas pode ser considerada muito alto nas ciências sociais em que pode haver uma maior presença de fatores complicadores.[48]

Dependência

É sempre possível calcular um coeficiente de correlação para variáveis (exceto para casos muito especiais), mas este coeficiente de correlação nem sempre é capaz de explicar a relação entre as variáveis.[49] Em uma tentativa de julgar a existência de uma relação linear entre duas variáveis, não é adequado julgar as correlações quando as relações entre elas não são lineares ou quando os dados são muito heterogêneos, uma vez que não há uma relação de causa e efeito entre as variáveis.[49] Se as duas variáveis aleatórias forem completamente independentes, então a correlação entre elas é nula. Entretanto, o inverso não necessariamente é verdadeiro, isto é, coeficiente de correlação nulo não não necessariamente implica independência entre as variáveis, pois se as variáveis apresentarem uma relação não linear (, por exemplo), o coeficiente de correlação será nulo, mesmo sendo relacionadas.[50] Estas considerações são ilustradas pelos seguintes exemplos no domínio de estatísticas:

MATRIZ DE CORRELAÇÃO
Estatura Busto Membro Superior
Estatura 1
Busto 0,85 1
Membro Superior 0,55 0,63 1

Por exemplo, em antropometria são medidos para um certo número de indivíduos a estatura, a altura do busto e o comprimento do membro superior. Quanto maiores as medições, mais representativas são as correlações. Então, calculando por leis estatísticas a influência de algumas variáveis sobre outras, obtém–se a matriz ao lado (com valores fictícios).

  • O valor 1 significa que as duas variáveis são exatamente correlacionadas. É o caso de uma relação linear entre as duas variáveis;
  • O valor 0,85 significa que a estatura responde por 72,25% (0,85 × 0,85) do valor da altura do busto e assim por diante;
  • A outra metade em falta da matriz pode ser completado por uma simetria ao longo da diagonal se as correlações forem reversíveis.

Precauções

Os quatro conjunto de dados possuem coeficiente de correlação de 0,816. No primeiro gráfico, a distribuição parece ser normalmente distribuída e corresponde ao que se esperaria ao considerar duas variáveis correlacionadas e seguindo o pressuposto de normalidade. No segundo gráfico, a distribuição não é normalmente distribuída. Embora uma relação óbvia entre duas variáveis possa ser observada, ela não é linear. Neste caso, o coeficiente de correlação de Pearson não indica que há uma relação funcional exata – apenas a medida em que esta relação pode ser aproximada por uma relação linear. No terceiro gráfico, a relação linear é perfeita com exceção de um outlier que exerce influencia suficiente para reduzir o coeficiente de correlação de 1 para 0,816. No quarto gráfico, há outro exemplo de quando um outlier é suficiente para produzir um alto coeficiente de correlação, mesmo se a relação entre as duas variáveis não for linear.

Em geral, o estudo da relação entre as variáveis deve ser acompanhado de gráficos descritivos para a apreensão dos dados à disposição para evitar incorrer os limites estritamente técnicos dos cálculos utilizados.[51] Entretanto, quando se trata de se concentrar nas ligações entre diversas variáveis, as representações gráficas podem não ser possíveis ou podem não ter os dados dispersos de uma forma que seja imediatamente possível identificar a correlação. Os cálculos podem então ajudar a simplificar as interpretações possíveis sobre as ligações entre as variáveis e/ou indicarem as principais hipóteses necessárias para boas leituras.

Correlação e causalidade

A expressão correlação não implica causalidade significa que correlação não pode ser usada para a relação causal entre as variáveis. Por exemplo, a quantidade de queimaduras de sol pode estar fortemente correlacionada ao número de óculos de sol vendidos em uma cidade litorânea, mas nenhum fenômeno é provavelmente a causa do outro. Entretanto, por mais que a expressão não signifique que as correlações não podem indicar a potencial existência de relações causais, as causas subjacentes à correlação (se houver) podem ser indiretas e desconhecidas. Por exemplo, a correlação entre idade e altura em crianças é clara. No entanto, a correlação entre humor e saúde nas pessoas é menos óbvia. A afirmação correta é a melhora do humor leva à melhora da saúde, a boa saúde leva ao bom humor ou ambas? Em outras palavras, uma correlação pode ser tomada como evidência de uma possível relação causal, mas não pode indicar qual é a relação causal.[52]

Correlação e linearidade

IO coeficiente de correlação de Pearson indica a força de uma relação linear entre duas variáveis, mas seu valor geralmente não caracteriza completamente sua relação.[53] Em particular, se a média condicional de dado , denotado , não for linear em , o coeficiente de correlação não determinará completamente . A imagem ao lado mostra gráficos de dispersão do quarteto de Anscombe, um conjunto de quatro pares diferentes de variáveis criadas por Francis Anscombe. As quatro variáveis têm a mesma média (7,5), variância (4,12), correlação (0,816) e regressão linear.[54] Entretanto, a distribuição das variáveis é muito diferente. De acordo com os gráficos ao lado, o coeficiente de correlação como uma estatística de resumo não pode substituir a análise visual dos dados. Nota–se que os exemplos às vezes indicam que o coeficiente de correlação de Pearson presume que os dados seguem uma distribuição normal. No entanto, isto não é verdade.[55]

Ver também

Referências

  1. Bussab, Wilton de O.; Morettin, Pedro A. (2010). Estatística Básica 6ª ed. [S.l.]: Saraiva. p. 73. 540 páginas 
  2. a b Bussab, Wilton de O.; Morettin, Pedro A. (2010). Estatística Básica 6ª ed. [S.l.]: Saraiva. p. 76. 540 páginas 
  3. Mann, Prem S. (2010). Introdutory Statistics 7ª ed. [S.l.]: John Wiley & Sons. p. 592 — 593. 625 páginas 
  4. Cooper, Donald R.; Schindler, Pamela S. (2016). Métodos de Pesquisa em Administração 12ª ed. [S.l.]: AMGH. p. 480. 695 páginas 
  5. Bussab, Wilton de O.; Morettin, Pedro A. (2010). Estatística Básica 6ª ed. [S.l.]: Saraiva. p. 83 — 84. 540 páginas 
  6. a b c d e Martins, Maria Eugénia Graça (2014). «Coeficiente de Correlação Amostral» (PDF). Revista de Ciência Elementar. p. 1. Consultado em 19 de maio de 2017 
  7. a b Rodgers, J. L.; Nicewander, W. A. (1988). «Thirteen ways to look at the correlation coefficient». The American Statistician. 42 (1): 59–66. JSTOR 2685263. doi:10.1080/00031305.1988.10475524 
  8. Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics, Pitman. ISBN 9780273403159 (page 625)
  9. Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement 2nd Edition, A. Higler. ISBN 9780750300605 (Page 331)
  10. Aitken, Alexander Craig (1957) Statistical Mathematics 8th Edition. Oliver & Boyd. ISBN 9780050013007 (Page 95)
  11. Dodge, Yadolah (2008). The Concise Encyclopedia of Statistics. [S.l.]: Springer. p. 115 — 119 
  12. a b Memória, José Maria Pompeu (2004). «Breve História da Estatística» (PDF): 22 — 25 
  13. Piovani, PIJuan Ignacio (2013). «De Objeto a Método: Notas Históricas sobre Estatística e Pesquisa Social» (PDF). Sociologia & Antropologia. 3 (5): 245 — 270 
  14. Caire, Elaine (2013). «A História da Curva Normal» (PDF): 27 — 30 
  15. Barbe, Lluis (2010). Francis Ysidro Edgeworth: A Portrait with Family and Friends. [S.l.]: Edward Elgar. p. 169 — 171. 291 páginas 
  16. «POPULAÇÃO E AMOSTRA» (PDF). Centro Universitário de Volta Redonda. p. 1. Consultado em 19 de maio de 2017 
  17. a b c Razdolsky, Leo (2014). Probability—Based Structural Fire Load. [S.l.]: Cambridge University Press. p. 63. 335 páginas 
  18. «Covariance and Correlation». Rice University. Consultado em 1 de junho de 2017 
  19. a b Dowdy, S. and Wearden, S. (1983). "Statistics for Research", Wiley. ISBN 0-471-08602-9 pp 230
  20. a b Hirsch, Robert P. (2016). Introduction to Biostatistical Applications in Health Research with Microsoft Office Excel. [S.l.]: Wiley. p. 150. 392 páginas 
  21. a b Lopez-Paz D. and Hennig P. and Schölkopf B. (2013). "The Randomized Dependence Coefficient", "Conference on Neural Information Processing Systems" Reprint
  22. Dogde, Yadolah (2008). The Concise Encyclopedia of Statistics. [S.l.]: Springer. p. 88 — 91 
  23. Rodrigues, Lígia Henriques (18 de maio de 2015). «Regressão Linear Simples» (PDF). IMEUSP. p. 7. Consultado em 19 de maio de 2017 
  24. a b c Gniazdowski, Zenon (2013). «Geometric interpretation of a correlation» (PDF). Zeszyty Naukowe Warszawskiej Wyższej Szkoły Informatyki. 7 (9): 27-35. Consultado em 8 de junho de 2017 
  25. Shaldehi, Ahmad Hedayatpanah (2013). «Using Eta correlation ratio in analyzing strongly nonlinear relationship between two Variables in Practical researches» (PDF). Journal of mathematics and computer science. p. 2. Consultado em 19 de maio de 2017 
  26. LEWANDOWSKI, DANIEL; COOKE, ROGER M.; TEBBENS, RADBOUD J. DUINTJER (2007). «Sample–based Estimation of Correlation Ratio with Polynomial Approximation» (PDF). Semantic Scholar. Consultado em 14 de junho de 2017 
  27. Pontes, Antonio Carlos Fonseca. «ENSINO DA CORRELAÇÃO DE POSTOS NO ENSINO MÉDIO» (PDF). Universidade Federal do Acre. Consultado em 19 de maio de 2017 
  28. Falcão, António Jorge Teixeira (2012). «Detecção de Correlação e Causalidade em Séries Temporais não Categóricas» (PDF). Universidade nova de Lisboa. Consultado em 19 de maio de 2017 
  29. a b Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. pp 258–270
  30. Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.
  31. Devore, Jay L. (2006). Probabilidade e Estatística para Engenharia e Ciências. [S.l.]: Cengage Learning. p. 432 — 433. 692 páginas 
  32. a b c Filho, Luiz Medeiros de Araujo Lima. «Correlação e Regressão» (PDF). UNIVERSIDADE FEDERAL DA PARAÍBA. p. 6. Consultado em 19 de maio de 2017 
  33. Viali, Lorí. «Estatística Básica» (PDF). Pontifícia Universidade Católica do Rio Grande do Sul (PUC–RS). Consultado em 7 de junho de 2017 
  34. Filho, Kepler de Souza Oliveira (10 de abril de 2013). «Mínimos Quadrados». Universidade Federal do Rio Grande do Sul. p. 1. Consultado em 22 de maio de 2017 
  35. a b Farber, Larson (2010). Estatística Aplicada. São Paulo: Pearson. 396 páginas. ISBN 978-85-7605-372-9 
  36. a b Farber, Larson (2010). Estatística Aplicada. São Paulo: Pearson. 396 páginas. ISBN 9788576053729 
  37. Mahdavi Damghani B. (2013). «The Non-Misleading Value of Inferred Correlation: An Introduction to the Cointelation Model». Wilmott Magazine. doi:10.1002/wilm.10252 
  38. Abbara, Omar M. F. (2009). «Modelagem de Dependência em Séries Financeiras Multivariadas» (PDF). Campinas: Instituto de Matemática, Estatística e Computação Científica - Unicamp. p. 18. Consultado em 14 de junho de 2017 
  39. Székely, G. J. Rizzo; Bakirov, N. K. (2007). «Measuring and testing independence by correlation of distances». Annals of Statistics. 35 (6): 2769–2794. doi:10.1214/009053607000000505 
  40. Székely, G. J.; Rizzo, M. L. (2009). «Brownian distance covariance». Annals of Applied Statistics. 3 (4): 1233–1303. doi:10.1214/09-AOAS312 
  41. Plischke, Elmar (2010). «An Adaptive Correlation Ratio Method» (PDF). Procedia Social and Behavioral Sciences: 7722 – 7723 
  42. a b c Cao, Longbing (2015). «Coupling learning of complex interactions» (PDF). Information Processing and Management: 167 – 186. Arquivado do original (PDF) em 5 de julho de 2017 
  43. «19. Simple Linear Regression IV — The Coefficient of Determination R²» (PDF). Leonard N. Stern School of Business — New York University. Consultado em 7 de junho de 2017 
  44. Komenda, Stanislav (1993). «"Dressing up" with correlation» (PDF). Information Bulletin of Czech Statistical Society. 4. Consultado em 8 de junho de 2017 
  45. Thorndike, Robert Ladd (1947). Research problems and techniques (Report No. 3). Washington DC: US Govt. print. off. 
  46. Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). «Scaled correlation analysis: a better way to compute a cross-correlogram». European Journal of Neuroscience: 1–21. doi:10.1111/j.1460-9568.2011.07987.x 
  47. «Chapter 14: Describing Relationships: Scatterplots and Correlation» (PDF). Wayne State University. Consultado em 7 de junho de 2017 
  48. Jacob Cohen. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
  49. a b Agarwal, B.L. (2006). Basics Statistics 4 ed. Delhi: New Age International Publishers. p. 396. ISBN 81-224-1814-7 
  50. Garlick, Andy. Estimating Risk: A Management Approach. [S.l.]: Gower. p. 187. ISBN 9780566087769 
  51. Paiva, Delhi; Lauretto, Marcelo de Souza (2011). «Análise Exploratória de Dados». SIN5008 - Estatística computacional. Consultado em 14 de junho de 2017 
  52. Aldrich, John (1995). «Correlations Genuine and Spurious in Pearson and Yule». Statistical Science. 10 (4): 364–376. JSTOR 2246135. doi:10.1214/ss/1177009870 
  53. Mahdavi Damghani, Babak (2012). «The Misleading Value of Measured Correlation». Wilmott. 2012 (1): 64–73. doi:10.1002/wilm.10167 
  54. Anscombe, Francis J. (1973). «Graphs in statistical analysis». The American Statistician. 27: 17–21. JSTOR 2682899. doi:10.2307/2682899 
  55. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome thirteenways2

Leitura adicional

  • COHEN, Jacob et al. Applied multiple regression/correlation analysis for the behavioral sciences. Routledge, 2013.
  • ZANIBONI, GUSTAVO TADEU et al. Fusao bayesiana de imagens utilizando coeficientes de correlaçao localmente adaptáveis. Anais do IX SBSR. Santos, SP, 1998.

Ligações externas

Read other articles:

Bandara BaucauIATA: BCHICAO: WPECInformasiJenisPublik/ MiliterPemilikTimor LestePengelolaPT Angkasa Pura I InternasionalMelayaniBaucau, Timor LesteKetinggian dpl542 mdplKoordinat08°29′07″S 126°23′57″E / 8.48528°S 126.39917°E / -8.48528; 126.39917Koordinat: 08°29′07″S 126°23′57″E / 8.48528°S 126.39917°E / -8.48528; 126.39917Landasan pacu Arah Panjang Permukaan m kaki 14/32 2,509 8,233 Bitumen Sumber: AIP Timor-Le...

 

  جمهورية سريلانكا الديمقراطية الاشتراكية ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජය  (سنهالية)‏இலங்கை ஜனநாயக சமூகவுடமைவாதக் குடியரசு  (تاميلية)‏Democratic Socialist Republic of Sri Lanka  (إنجليزية) سريلانكاعلم سريلانكا سري�...

 

Final Piala Presiden Republik 1935TurnamenPiala Presiden Republik 1935 Sevilla Sabadell 3 0 Tanggal30 Juni 1935StadionStadion Chamartín, MadridWasitPedro EscartínPenonton15.000← 1934 1936 → Final Piala Presiden Republik 1935 adalah pertandingan final ke-33 dari turnamen sepak bola Piala Presiden Republik untuk menentukan juara musim 1935. Pertandingan ini diikuti oleh Sevilla dan Sabadell dan diselenggarakan pada 30 Juni 1935 di Stadion Chamartín, Madrid. Sevilla memenangkan pe...

The first oil well in Bahrain was discovered in 1932. Plaque commemorating the discovery Part of a series on the History of Bahrain Ancient Bahrain Dilmun Tylos Awal Historical region Islam in Bahrain Al-Ala'a Al-Hadrami Reigning Dynasties Qarmatians Uyunid dynasty Usfurid and Jarwanid dynasties Jabrid dynasty Portuguese occupation Muqrin ibn Zamil Antonio Correia Safavid hegemony 1717 Omani invasion of Bahrain 1783–1971 1783 Bani Utbah invasion of Bahrain Perpetual Truce of Peace and Frien...

 

مسجد شهيدي معلومات عامة القرية أو المدينة تبريز، محافظة أذربيجان الشرقية الدولة  إيران تعديل مصدري - تعديل   مسجد شهيدي هو مسجد تاريخي يعود إلى عصر القاجاريون، ويقع في تبريز.[1] مراجع ^ Encyclopaedia of the Iranian Architectural History. Cultural Heritage, Handicrafts and Tourism Organization of Iran. 19 مايو 2011. مؤرشف ...

 

Pabrik kertas dan pukp Kraft milik International Paper Company di Georgetown, Carolina Selatan. Saat dibangun, pabrik tersebut adalah pabrik terbesar di dunia. Pabrik kertas adalah sebuah pabrik yang dipakai untuk membuat kertas dari serat-serat vegetasi seperti pulp kayu dan bahan lainnya. Sebelum penemuan dan adopsi mesin Fourdrinier dan jenis mesin kertas lainnya yang memakai sabuk tanpa ujung, semua kertas dalam pabrik kertas dibuat dengan tangan, satu lembar pada satu kali, oleh para ten...

Premio StregaRiconoscimento al miglior libro di narrativa italiana contemporanea Assegnato daFondazione Bellonci Intitolato aLiquore Strega Paese Italia Anno inizio1947 Sito webwww.premiostrega.it/ Modifica dati su Wikidata · Manuale Il Premio Strega è un premio letterario assegnato annualmente all'autore di un libro pubblicato in Italia, tra il 1º marzo dell’anno precedente e il 28 febbraio dell’anno in corso, come espressamente recitato dall'articolo 5 del regolamento.[...

 

Ahli waris tetap adalah seseorang ahli waris takhta yang kedudukannya tidak bisa digeser secara hukum dengan kelahiran orang lain. Hal ini berbeda dengan ahli waris sementara yang kedudukannya dapat digeser bila lahir orang lain yang dipandang lebih pantas menjadi ahli waris. Ahli waris tetap dapat disamakan dengan putra mahkota (putri mahkota untuk wanita). Setiap negara memiliki gelar khusus untuk putra mahkota, seperti Pangeran Orange di Belanda, Pangeran Asturias di Spanyol, atau Pangeran...

 

Disambiguazione – Se stai cercando l'ex calciatore svizzero, vedi Patrik Baumann. Questa voce sull'argomento dirigenti sportivi svizzeri è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Patrick Baumann Patrick Baumann (Basilea, 5 agosto 1967 – Buenos Aires, 13 ottobre 2018) è stato un dirigente sportivo svizzero. Ha ricoperto l'incarico di Segretario generale della FIBA dal 2003 al 2018. Scomparso prematuramente nel 2018 per un attacco cardiaco, n...

Dalam artikel ini, nama keluarganya adalah Mattotorang, nama keluarga patronimik Bugis; Andi adalah gelar kehormatan bangsawan Bugis. Artikel ini membutuhkan penyuntingan lebih lanjut mengenai tata bahasa, gaya penulisan, hubungan antarparagraf, nada penulisan, atau ejaan. Anda dapat membantu untuk menyuntingnya. Andi Harmil Mattotorang Wakil Bupati Maros ke-2Masa jabatan17 Februari 2016[1] – 2020PresidenJoko WidodoGubernurSyahrul Yasin Limpo Soni Sumarsono (Pj.)Nurdin ...

 

The Metal Gear series has seen releases on several different media. This includes promotional material such as toys, artwork, and guides. Metal Gear is a stealth action video game series created by Hideo Kojima and developed and published by Konami. The series debuted in Japan on July 12, 1987, with Metal Gear[1] and is one of Konami's best-selling franchises, with over 26.5 million units sold.[2] The games take place in a semi-fictional universe with stories that involve a s...

 

هذه المقالة بحاجة لصندوق معلومات. فضلًا ساعد في تحسين هذه المقالة بإضافة صندوق معلومات مخصص إليها. هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (أبريل 2023) منع الأكياس البلاستيكية هو قانون يُقيد استخدام الأكياس ال...

Tony JaaLahirJaa Panom Yeerum5 Februari 1976 (umur 48)Provinsi Surin, Isaan, ThailandNama lainJaa PhanomPekerjaanAktorTahun aktif1994-sekarang Tony Jaa atau Tatchakorn Yeerum (bahasa Thai: ทัชชกร ยีรัมย์; atau dahulu Panom Yeerum (bahasa Thai: พนม ยีรัมย์; IPA: [pʰanom jiːrɑm]) (lahir 5 Februari 1976) adalah aktor laga beladiri Muay Thai. Lahir di provinsi Surin, Tony Jaa tumbuh dipedesaan. Ia sering menyaksikan fil...

 

Fictional team from Marvel Comics New WarriorsCover art for New Warriors (vol 5) #1 by Marcus ToPublication informationPublisherMarvel ComicsFirst appearance(cameo) The Mighty Thor #411 (December 1989)Created byTom DeFalco (writer)Ron Frenz (artist)In-story informationType of organizationTeamAgent(s)Current roster:HaechiHummingbirdJusticeNovaScarlet SpiderSpeedball/PenanceSun GirlSilhouetteWater SnakeRosterSee: New Warriors members The New Warriors is a fictional superhero team appearing in A...

 

باسكال هيرفي (بالفرنسية: Pascal Hervé)‏  معلومات شخصية الميلاد 13 يوليو 1964 (العمر 60 سنة)تور الجنسية  فرنسا الحياة العملية الدور دراج المهنة دراج،  ومدير رياضي  [لغات أخرى]‏  نوع السباق سباق الدراجات على الطريق آخر تحديث 6 سبتمبر 2007 تعديل مصدري - تعديل   باسكال ه�...

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Gravity of Earth – news · newspapers · books · scholar · JSTOR (September 2024) (Learn how and when to remove this message) Earth's gravity measured by NASA GRACE mission, showing deviations from the theoretical gravity of an idealized, smooth Earth, the so-ca...

 

Chinese philosopher and statesman (280–233 BC) For imperial Chinese consorts, see Consort Han (disambiguation). Han Fei-Tzu redirects here. For the Ender's Game character, see Han Fei-tzu (Ender's Game). In this Chinese name, the family name is Han. Han FeiBornc. 280 BCState of HanDied233 BCState of QinCause of deathSuicide by drinking poisonNotable workHan FeiziEraAncient philosophyRegionChinese philosophySchoolLegalismMain interestsFaXingmingWu weiDaoDiplomacy Chinese...

 

ダグラス・ホワイト 基本情報国籍 南アフリカ共和国生年月日 (1971-11-15) 1971年11月15日(52歳)騎手情報初免許年 1987年騎手引退日 2019年2月10日調教師情報初免許年 2019年9月1日テンプレートを表示 ダグラス・ホワイト(Douglas Whyte、韋達、1971年11月15日 - )は、香港ジョッキークラブに所属する元騎手で現在は調教師。南アフリカ共和国・ダーバン出身。身長167センチメート...

Mark IvanirBiographieNaissance 6 septembre 1964 ou 6 septembre 1968TchernivtsiNationalités israélienne (depuis 1972)soviétiqueActivités ActeurPériode d'activité Depuis 1988Autres informationsSite web (en) markivanir.commodifier - modifier le code - modifier Wikidata Mark Ivanir, né le 6 septembre 1968 à Tchernivtsi en actuelle Ukraine, est un acteur israélien, originaire d'Ukraine, connu notamment pour son apparition dans le film La Liste de Schindler en 1993 et dans la série A...

 

Para el barrio porteño, véase Agronomía (Buenos Aires). Este artículo o sección tiene referencias, pero necesita más para complementar su verificabilidad. Busca fuentes: «Agronomía» – noticias · libros · académico · imágenesEste aviso fue puesto el 2 de marzo de 2021. La agronomía está presente en los cultivos hoy en día. La agronomía[1]​ (del latín ager, ‘campo’, y del griego νόμος nomos, ‘ley’),[2]​ formalizada como ingenier�...