Este artigo abrange a correlação entre duas variáveis. O termo correlação pode também significar a relação invertida de duas funções ou a correlação eletrônica em sistemas moleculares.
Em probabilidade e estatística, correlação, dependência ou associação é qualquer relação estatística (causal ou não causal) entre duas variáveis[1] e correlação é qualquer relação dentro de uma ampla classe de relações estatísticas que envolva dependência entre duas variáveis.[2] Por exemplo, a correlação entre a estatura dos pais e a estatura dos pais e dos filhos. Embora seja comumente denotada como a medida de relação entre duas variáveis aleatórias,[2][3] correlação não implica causalidade.[4] Em alguns casos, correlação não identifica dependência entre as variáveis. Em geral, há pares de variáveis que apresentam forte dependência estatística, mas que possuem correlação nula. Para este casos, são utilizadas outras medidas de dependência.[5]
Informalmente correlação é sinônimo de dependência. Formalmente variáveis são dependentes se não satisfizerem a propriedade matemática da independência probabilística. Em termos técnicos, correlação refere–se a qualquer um dos vários tipos específicos de relação entre os valores médios. Existem diferentes coeficientes de correlação ( ou ) para medir o grau de correlação. Um dos coeficientes de correlação mais conhecidos é o coeficiente de correlação de Pearson, obtido pela divisão da covariância de duas variáveis pelo produto dos seus desvios padrão[6] e sensível a uma relação linear entre duas variáveis.[7] Entretanto, há outros coeficientes de correlação mais robustos que o coeficiente de correlação de Pearson. Isto é, mais sensíveis às relações não lineares.[8][9][10]
Histórico
Os conceitos de correlação e de regressão originaram—se nos anos de 1880 com Sir Francis Galton (1822 – 1911), de acordo com sua autobiografia Memories of My Life, publicada em 1890.[11] Em seus estudos sobre o diâmetro das sementes das ervilhas—de—cheiro, Galton chegou à equação de reversão à média:
,
em que são o diâmetro das sementes das plantas filhas, são o diâmetro das sementes das plantas pais e é a reversão (posteriormente, regressão). Em suas pesquisas sobre a comparação entre estaturas de pais e filhos, Galton usou o termo regressão pela primeira vez para denotar a regressão à média da população observada. Com base na análise da tábua de frequência bidimensional representada pelas alturas dos filhos adultos e meio—pais (média do pai e da mãe), Galton chegou à fórmula da superfície da representação gráfica (atualmente, a fórmula da função normal bidimensional) e à expressão da co—relação (atualmente, correlação) como conseqüência das variações devidas a causas comuns.[12]
O desenvolvimento da correlação, com a publicação de Natural Inheritance em 1889, marca o início do período moderno da estatística. A correlação prometia ser útil em muitos campos científicos, especialmente diante da necessidade de estabelecer diretrizes de causalidade. Entretanto, na época de Galton a disciplina de teoria estatística era não existia na Inglaterra (não havia curso universitário revistas especializadas sobre o assunto). Então, Galton percebeu que regressão e correlação poderiam ser o ponto de partida de uma nova disciplina, embora fosse preciso organizar as contribuições dispersas e estruturar o conhecimento de modo sistemático. Por volta de 1890, este contexto começou a chamar atenção de estatísticos e jovens cientistas como Edgeworth, Weldon e Pearson.[13]
Weldon e Pearson
A expressão de correlação foi modificada pelo professor de Zoologia em Cambridge Walter Frank Raphael Weldon (1860 – 1906), que incorporou o sinal positivo e o sinal negativo a partir da análise das dimensões de 22 pares de órgãos de várias espécies de camarões. Entretanto, a atual fórmula do coeficiente de correlação foi determinada em 1896 por Karl Pearson (1857 – 1936).[12] Em Mathematical Contributions to the Theory of Evolution, Pearson publicou entre 1893 e 1912 suas contribuições para a análise de regressão, o coeficiente de correlação e o teste qui—quadrado de significância estatística. Especialmente, o coeficiente de correlação produto—momento de Pearson com foi desenvolvido com base em um conjunto de dados sobre estatura de pais e filhos (inicialmente coletados por Galton), tornando—se a primeira medida de força de associação em estatística.[14]
Edgeworth
Em 1892, Francis Ysidro Edgeworth (1845 – 1926) publicou parte do seu trabalho sobre correlação em Philosophical Magazine com base nas contribuições prévias de Galton. Nos artigos Correlated Averages e The Law of Error and Correlated Averages, Edgeworth introduziu o termo coeficiente de correlação, forneceu a primeira análise matemática de correlação e mostrou sua relação com a distribuição multivariada normal. Entre 1893 e 1895, Edgeworth publicou a continuação do seu trabalho sobre correlação na Philosophical Magazine e na Journal of the Royal Statistcal Society. Por exemplo, o resumo de Recent Contributions to thew Theory of Statistics, que culminou em quatro importantes trabalhos Statistics on Unprogressive Communities, The Assymetrical Probability Curve, The Compound Law of Error e Supplementary Notes on Statistics.[15]
Correlação linear
Os diferentes setores da sociedade utilizam amostras de populações , em vez de populações de dados , para auxiliar nas análises dos objetivos das suas áreas de conhecimento. Isto ocorre porque um conjunto reduzido de dados () torna o processo mais econômico e mais rápido do ponto de vista matemático. Isto deve–se aos erros de arredondamentos dos cálculos que são feitos em estatística, considerando que uma grande quantidade de dados envolve mais cálculos que uma pequena quantidade de dados.[16]
Correlação populacional
A correlação populacional trata da medida da direção e do grau com que as variáveis e se associam linearmente em uma população. O coeficiente de correlação populacional entre duas variáveis e com valores esperados e e desvios padrão e é definido como:
em que é o operador do valor esperado, é a covariância e é uma notação alternativa para coeficiente de correlação.[17]
O coeficiente de correlação de Pearson é +1 no caso de uma relação linear (correlação) direta perfeita (crescente), -1 no caso de uma relação linear (anticorrelação) decrescente perfeita (inversa) e qualquer valor no intervalo aberto (-1, 1) nos outros casos indicando o grau de dependência linear entre as variáveis.[19] É um corolário da desigualdade de Cauchy–Schwarz, em que a correlação não pode exceder 1 em valor absoluto. Quanto mais próximo de 0, mais fraca a correlação entre as variáveis (mais próximas de não correlacionados). Quando mais próximo de -1 ou +1, mais forte a correlação entre as variáveis.[20]
Se as variáveis forem independentes, o coeficiente de correlação de Pearson é 0. Entretanto, o contrário não é verdadeiro porque o coeficiente de correlação detecta apenas dependências lineares entre duas variáveis. Por exemplo, suponha–se que a variável aleatória é simetricamente distribuída em torno de 0 e que a variável aleatória . Então, é completamente determinada por , de modo que e são perfeitamente dependentes, mas a correlação entre elas é 0. Em outras palavras, as variáveis não são correlacionadas. Entretanto, no caso especial em que e são conjuntamente normais, não correlação é equivalente à independência.[17]
A correlação amostral trata da medida da direção e do grau com que as variáveis e se associam linearmente em uma amostra. Karl Pearson desenvolveu o coeficiente amostral a partir de uma ideia semelhante, porém ligeiramente diferente da de Francis Galton. Então, o coeficiente amostral pode ser chamado de coeficiente produto–momento de Pearson, coeficiente de correlação de Pearson ou simplesmente coeficiente de correlação, que é a medida mais conhecida de dependência entre duas variáveis quantitativa.[7]
Para uma série de medições de e , e para , o coeficiente de correlação da amostra pode ser usado para estimar o coeficiente de correlação de Pearson da população entre e . Então, o coeficiente de correlação da amostra é escrito como:
Se e são resultados de medições que contêm erros de medições, os limites realistas no coeficiente de correlação não são -1 para +1, mas um intervalo menor.[21]
No caso de um modelo linear com uma única variável independente, o coeficiente de determinação é o quadrado do coeficiente de correlação de Pearson .[22]
Propriedades de para variáveis e
: relação linear perfeita e positiva
: inexistência linear
: relação linear perfeita e negativa
: relação linear positiva
: relação linear negativa
Se os valores das variáveis e são convertidos para uma escala diferente, o valor de não é alterado
O valor de não é afetado pela escolha das variáveis ou
Permutando e , o valor de não é alterado
Mede direção e o grau (intensidade) com que as variáveis e as quais se associam linearmente
As duas séries de valores e podem ser consideradas vetores em um espaço de dimensão . Com a substituição por vetores centrados nas médias, têm-se e .
O cosseno do ângulo entre os vetores e , usando a norma euclidiana e o produto escalar normalizado, é dado pela fórmula:[24]
,
Portanto, , em que está sempre -1 e 1.
O coeficiente de correlação é o cosseno do ângulo entre os dois vetores centrados:[24]
Se , então e os dois vetores são colineares (paralelos);
Se , então e os dois vetores são ortogonais;
Se , então e os dois vetores são colineares, mas em direções opostas.
Mais genericamente, , em que é a função inversa do cosseno. representa, do ponto de vista geométrico, a intensidade da correlação entre os dois vetores aleatórios e , o que não pode ser medido em um teste de significância.[24]
Mais genericamente, , em que é o inverso da função cosseno. Do ponto de vista geométrico, não se fala em correlação linear. O coeficiente de correlação sempre tem um significado, independentemente do valor entre -1 e 1.
A correlação de postos de Spearman é utilizada para a relação entre dados não–lineares. Quando os dados de uma amostra são ordenados de forma crescente, obtém–se uma condição de ordem para que cada elemento ordenado seja um posto.
A correlação de postos de Spearman é dada pela expressão matemática:
,
em que , cm que e variando de 1 a , sendo a quantidade de elementos da amostra.[27]
Correlação de postos de Kendall
A correlação de postos de Kendall, também conhecido como de Kendall, é uma medida a partir de uma amostra de dados ordenados como a correlação de postos de Spearman. A vantagem de de Kendall é a generalização para um coeficiente de correlação parcial.
A correlação de Kendall é dada pela expressão matemática:
,
em que são os números de pares concordantes, são os números de pares discordantes e é a quantidade de elementos da amostra.[28]
Classificação dos coeficientes de correlação
Coeficientes de correlação como correlação de postos de Spearman e de Kendall medem a como uma variável aumenta enquanto outra variável também aumenta, sem exigir que o aumento seja representado por uma relação linear. Se, à medida que uma variável aumenta, uma outra variável diminui, os coeficientes de correlação de postos serão negativos. É comum considerar estes coeficientes de correlação de postos como alternativas ao coeficiente de correlação de Pearson, usado tanto para reduzir a quantidade de cálculo quanto para tornar o coeficiente menos sensível para distribuições não normais. Entretanto, esta visão tem pouca base matemática, na medida em que coeficientes de correlação de postos medem um tipo de relação diferente do coeficiente de correlação de Pearson e são melhor vistos como medidas de um tipo de associação diferente em vez de medidas alternativas do coeficiente de correlação da população.[29][30]
Para ilustrar a natureza dos coeficientes de correlação de postos, sejam os seguintes pares de números . De um par para outro, e aumentam. A relação é perfeita no sentido que o aumento de sempre é acompanhado do aumento de . Isto corresponde a uma correlação de posto perfeita e tanto a correlação de postos de Spearman quanto o de Kendall são iguais a 1, enquanto que o coeficiente de correlação de Pearson é igual a 0,7544, indicando que os pontos estão longe de cair em uma linha reta. Da mesma maneira, se sempre diminuir quando aumentar, o coeficiente de correlação de postos será -1 enquanto o coeficiente de correlação de Pearson poderá ou não poderá ser próximo de -1, dependendo do quão próximo os pontos estiverem de uma linha reta. Embora em casos extremos de correlação de posto perfeita ambos os coeficientes seja iguais (+1 ou -1), este geralmente não é o caso. Então, valores de dois coeficientes não podem ser comparados. Por exemplo, para os três pares a correlação de postos de Spearman é e o de Kendall é .[29]
Regressão linear
A regressão linear estuda a relação entre muitas ou poucas variáveis. A relação entre duas variáveis é chamada de regressão linear simples. A relação entre mais de duas variáveis é chamada de regressão linear múltipla.[31]
Regressão linear simples
A regressão linear simples estuda a relação entre uma variável independente e outra variável dependente , ambas quantitativas. A regressão linear resulta em uma equação sobre o comportamento das variáveis e :
,
em que é a variável resposta associada a –ésima observação de , é a –ésima observação do valor independente e fixado para a variável independente , é o erro aleatório para –ésima observação e, e são os parâmetros que precisam ser estimados.[32]
Por meio da correlação linear, encontra–se o gráfico de uma reta que possui as características de coeficiente angular e de coeficiente linear. Em termos matemáticos, a equação geral de uma reta é dada por , em que é o coeficiente angular e é o coeficiente linear. Como a regressão linear é uma equação de uma reta, em que é o coeficiente linear e o coeficiente angular para o mesmo grupo de dados amostrais, admite–se e . Portanto, encontrando–se uma correlação linear de uma amostra de dados, obtém–se a estimação dos parâmetros e para a regressão linear.[32]
Uma regressão linear é construída a partir de uma reta , determinada por uma correlação linear. Então, possui pontos cartesianos para determinar o coeficiente linear e o coeficiente angular para estabelecer os parâmetros e da regressão linear. Como e são observações amostrais e é o erro amostral, encontra–se o valor . Uma reta de regressão pode ser determinada somente com os valores e .[32]
Método dos mínimos quadrados
O cálculo do coeficiente de correlação entre duas variáveis é dado pelo ajuste linear. Para o cálculo das características da linha, o erro cometido ao representar a relação entre as variáveis precisa ser o menor possível. Embora não seja o único critério possível, na maioria das vezes minimiza–se a soma de todos os erros cometidos ao quadrado. Isto é chamado de ajuste para o método dos mínimos quadrados, que resulta na linha de regressão (quanto melhor a qualidade de representação da relação entre as variáveis pela linha de regressão, maior a associação do coeficiente de correlação linear).[33] O método dos mínimos quadrados é uma forma ágil para determinar os parâmetros desconhecidos para uma equação resultante de uma regressão linear, uma vez que minimiza a soma dos quadrados dos resíduos. O método dos mínimos quadrados é útil se os resíduos tiverem distribuição normal.[34]
Exemplos
Área comercial (correlação linear)
O setor comercial procura investir em propagandas para aumentar as vendas. Um gráfico de dispersão mostra se há uma correlação linear entre vendas e custo de propaganda. Supondo que uma empresa tem o cenário conforme a tabela abaixo.[35]
A partir do gráfico de dispersão da tabela acima, encontra–se uma correlação linear que mostra uma tendência entre investimento em propaganda e retorno positivo em vendas. É possível estimar um retorno de vendas com um aumento no custo em propaganda pelo cálculo matricial por meio da equação geral da reta , em que são os valores independentes que correspondem aos custos de propaganda e são os valores de retorno tratados para o cálculo do vetor chamado na tabela A de lucro sobre cada item. Esse cálculo é uma generalização método dos mínimos quadrados.[35]
Então,
A relação entre as variáveis é:
,
em que .
Realizando-se o cálculo entre as matrizes, obtém-se:
Portanto, com um investimento de 12 mil reais em propaganda no próximo mês, o lucro será de:
Área da saúde (correlação não linear)
Para se manter saudável, o consumo de água é indispensável. Uma gestora pública solicita à uma consultoria para verificar se há relação entre o consumo de água e a massa corporal de uma pessoa. A tabela B mostra indivíduos que fazem o consumo de água.[36]
Com a elaboração do diagrama de dispersão sobre a Tabela B, torna-se intuitivo pela plotagem (visualização) a não linearização entre massa e consumo de água. Embora necessárias, a intuição e a visualização não são suficientes para provar que não há relação linear. Dessa forma, o cálculo pelo coeficiente de Pearson facilita a demonstração da ausência de linearização para o objetivo da gestora pública. Para o cálculo é utilizado neste exemplo a segunda versão do coeficiente de Pearson, embora visualmente a fórmula seja mais extensa, ela é mais direta. Então,
A consultoria retorna a demonstração e a plotagem dos dados para a gestora pública que determina os planos de ações sobre o controle da reserva de água.[36]
Outras medidas de dependência entre variáveis
A informação fornecida por um coeficiente de correlação não é suficiente para definir a estrutura de dependência entre variáveis.[37] O coeficiente de correlação define completamente a estrutura de dependência apenas em casos particulares como uma distribuição normal multivariada. No caso de distribuições elípticas, caracteriza as (hiper)elipses de igual densidade. Entretanto, não caracteriza completamente a estrutura de dependência. Por exemplo, os graus de liberdade de uma distribuição t multivariada determinam o nível de dependência de cauda.[38]
Correlação da distância— Foi introduzida para endereçar a deficiência da correlação de Pearson que pode ser 0 para variáveis dependentes. Uma correlação de distância igual a 0 implica independência.[39][40]
Coeficiente de dependência randomizado— É uma medida baseada em cópula computacionalmente eficiente da dependência entre variáveis multivariadas. O coeficiente de dependência randomizado é invariante em relação a escalas não lineares de variáveis e é capaz de descobrir uma ampla variedade de padrões de associação funcionais e assume o valor 0 na independência.[21]
Proporção de correlação — É capaz de detectar praticamente qualquer dependência funcional.[41][42]
Informação mútua baseada na entropia / Correlação total / Correlação total dupla — São capazes de detectar ainda mais dependências gerais. Estas medidas de dependência às vezes são referidas como medidas de correlação de múltiplos momentos em comparação com aquelas medidas de dependência que consideram apenas a dependência do segundo momento (pairwise ou quadrática).[42]
Correlação policórica— É outra correlação aplicada a dados ordinais que buscam estimar a correlação entre as variáveis latentes teorizadas. Uma forma de capturar uma visão mais completa da estrutura de dependência é considerar uma cópula entre elas.[42]
Coeficiente de determinação — Generaliza o coeficiente de correlação para relações além da regressão linear simples.[43]
Sensibilidade à distribuição dos dados
O grau de dependência entre as variáveis e não depende da escala, na qual as variáveis são expressas. Isto é, quando se analisa a relação entre e , a maior parte das medidas de correlação não são afetadas pela transformação de em e de em , em que são constantes (sendo positivos). Isto é verdade para algumas estatísticas de correlação, assim como para os análogos da sua população. Algumas estatísticas de correlação como o coeficiente de correlação de postos também são invariantes para transformações monótonas de distribuições marginais de e/ou .[44]
A maioria das medidas de correlação são sensíveis à maneira pela qual e são amostradas. As dependências tendem a ser mais fortes se vistas sobre uma variedade mais ampla de valores. Portanto, se for considerado o coeficiente de correlação entre as alturas dos pais e filhos entre todos os homens adultos e isto for comparado com o mesmo coeficiente de correlação calculado quando os pais selecionado têm entre 1,65m e 1,70m de altura, a correlação será mais fraca no último caso. Várias técnicas que foram desenvolvidas que tentam corrigir a restrição do intervalo em uma ou em ambas as variável são comumente usadas em metanálise. As equações do caso III e do caso II de Thorndike são as mais comuns.[45]
Várias medidas de correlação em uso podem ser indefinidas para certas distribuições conjuntas de e . Por exemplo, o coeficiente de correlação de Pearson é definido em termos de momentos. Portanto, será indefinido se os momentos também forem indefinidos. As medidas de dependência basedas em quantis são sempre definidas. As estatísticas baseadas em amostras que estimam as medidas populacionais de dependência podem ou não podem ter propriedades estatísticas desejáveis, como não ser viesada ou assintoticamente consistente, com base na estrutura espacial da população a partir da qual os dados foram amostrados.[carece de fontes?]
A sensibilidade à distribuição dos dados tem uma vantagem. Por exemplo, a correlação em escala é designada para usar a sensibilidade ao intervalo para identificar correlações entre componentes rápidos de séries temporais. Reduzindo o intervalo de valores de maneira controlada, as correlações em uma longa escala de tempo são filtradas e apenas as correlações em uma curta escala de tempo são reveladas.[46]
Matrizes de correlação
A matriz de correlação de variáveis é a matriz , cujo -ésimo elemento da matriz é . Se as medidas de correlação usadas são coeficientes de produto—momento, a matriz de correlação é igual a matriz de covariância das variáveis padronizadas para . Isto é aplicado tanto para matriz de correlações populacionais (caso em que denota o desvio padrão populacional) quanto para matriz de correlações amostrais (caso em que denota o desvio padrão amostral). Consequentemente, cada uma é necessariamente uma matriz semidefinida—positiva. Além disso, a matriz de correlação é estritamente definida positiva se nenhuma variável puder ter todos os seus valores exatamente gerados como uma combinação linear dos outros. A matriz de correlação é simétrica porque a correlação entre e é igual a correlação entre e . Por exemplo, uma matriz de correlação aparece, por exemplo, na fórmula para o coeficiente de correlação múltipla (), uma medida de qualidade de ajuste em regressão múltipla: , onde é o vetor de correlações entre as variáveis independentes e a variável dependente e é a matriz de correlação.
Interpretação
Correlação
Negativa
Positiva
Baixa
de -0,5 à 0
de 0 à 0,5
Alta
de -1 à -0,5
de 0,5 à 1
É igual a 1, se uma das variáveis é uma função linear crescente da outra variável. É igual a -1, se uma variável é uma função decrescente. Os valores intermédios fornecem informações sobre o grau de dependência linear entre as duas variáveis.[19] Quanto mais próximo o coeficiente estiver dos valores extremos -1 e 1, mais forte é a correlação linear entre as variáveis.[20] Uma correlação igual a 0 significa que as variáveis não estão linearmente correlacionadas, mas podem estar correlacionado de forma não linear.[17]
O coeficiente de correlação não é sensível às unidades de cada variável. Por exemplo, o coeficiente de correlação linear entre a idade e o peso de uma pessoa será a mesma idade medida em semanas, meses ou anos. Entretanto, este coeficiente de correlação é extremamente sensível à presença de outliers no conjunto de dados (valores muito discrepantes, que podem ser considerados exceções).[47]
Vários autores propuseram diretrizes para a interpretação de um coeficiente de correlação. No entanto, Jacob Cohen observa que estes critérios são de certa forma arbitrários e não devem ser muito estritamente observados. A interpretação de um coeficiente de correlação depende do contexto e dos objetivos. Por exemplo, uma correlação de 0,9 pode ser considerada muito baixa se uma lei física for verificada utilizando ferramentas de qualidade, mas pode ser considerada muito alto nas ciências sociais em que pode haver uma maior presença de fatores complicadores.[48]
Dependência
É sempre possível calcular um coeficiente de correlação para variáveis (exceto para casos muito especiais), mas este coeficiente de correlação nem sempre é capaz de explicar a relação entre as variáveis.[49] Em uma tentativa de julgar a existência de uma relação linear entre duas variáveis, não é adequado julgar as correlações quando as relações entre elas não são lineares ou quando os dados são muito heterogêneos, uma vez que não há uma relação de causa e efeito entre as variáveis.[49] Se as duas variáveis aleatórias forem completamente independentes, então a correlação entre elas é nula. Entretanto, o inverso não necessariamente é verdadeiro, isto é, coeficiente de correlação nulo não não necessariamente implica independência entre as variáveis, pois se as variáveis apresentarem uma relação não linear (, por exemplo), o coeficiente de correlação será nulo, mesmo sendo relacionadas.[50] Estas considerações são ilustradas pelos seguintes exemplos no domínio de estatísticas:
MATRIZ DE CORRELAÇÃO
Estatura
Busto
Membro Superior
Estatura
1
Busto
0,85
1
Membro Superior
0,55
0,63
1
Por exemplo, em antropometria são medidos para um certo número de indivíduos a estatura, a altura do busto e o comprimento do membro superior. Quanto maiores as medições, mais representativas são as correlações. Então, calculando por leis estatísticas a influência de algumas variáveis sobre outras, obtém–se a matriz ao lado (com valores fictícios).
O valor 1 significa que as duas variáveis são exatamente correlacionadas. É o caso de uma relação linear entre as duas variáveis;
O valor 0,85 significa que a estatura responde por 72,25% (0,85 × 0,85) do valor da altura do busto e assim por diante;
A outra metade em falta da matriz pode ser completado por uma simetria ao longo da diagonal se as correlações forem reversíveis.
Precauções
Em geral, o estudo da relação entre as variáveis deve ser acompanhado de gráficos descritivos para a apreensão dos dados à disposição para evitar incorrer os limites estritamente técnicos dos cálculos utilizados.[51] Entretanto, quando se trata de se concentrar nas ligações entre diversas variáveis, as representações gráficas podem não ser possíveis ou podem não ter os dados dispersos de uma forma que seja imediatamente possível identificar a correlação. Os cálculos podem então ajudar a simplificar as interpretações possíveis sobre as ligações entre as variáveis e/ou indicarem as principais hipóteses necessárias para boas leituras.
Correlação e causalidade
A expressão correlação não implica causalidade significa que correlação não pode ser usada para a relação causal entre as variáveis. Por exemplo, a quantidade de queimaduras de sol pode estar fortemente correlacionada ao número de óculos de sol vendidos em uma cidade litorânea, mas nenhum fenômeno é provavelmente a causa do outro. Entretanto, por mais que a expressão não signifique que as correlações não podem indicar a potencial existência de relações causais, as causas subjacentes à correlação (se houver) podem ser indiretas e desconhecidas. Por exemplo, a correlação entre idade e altura em crianças é clara. No entanto, a correlação entre humor e saúde nas pessoas é menos óbvia. A afirmação correta é a melhora do humor leva à melhora da saúde, a boa saúde leva ao bom humor ou ambas? Em outras palavras, uma correlação pode ser tomada como evidência de uma possível relação causal, mas não pode indicar qual é a relação causal.[52]
Correlação e linearidade
IO coeficiente de correlação de Pearson indica a força de uma relação linear entre duas variáveis, mas seu valor geralmente não caracteriza completamente sua relação.[53] Em particular, se a média condicional de dado , denotado , não for linear em , o coeficiente de correlação não determinará completamente . A imagem ao lado mostra gráficos de dispersão do quarteto de Anscombe, um conjunto de quatro pares diferentes de variáveis criadas por Francis Anscombe. As quatro variáveis têm a mesma média (7,5), variância (4,12), correlação (0,816) e regressão linear.[54] Entretanto, a distribuição das variáveis é muito diferente. De acordo com os gráficos ao lado, o coeficiente de correlação como uma estatística de resumo não pode substituir a análise visual dos dados. Nota–se que os exemplos às vezes indicam que o coeficiente de correlação de Pearson presume que os dados seguem uma distribuição normal. No entanto, isto não é verdade.[55]
↑ abRodgers, J. L.; Nicewander, W. A. (1988). «Thirteen ways to look at the correlation coefficient». The American Statistician. 42 (1): 59–66. JSTOR2685263. doi:10.1080/00031305.1988.10475524
↑Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics, Pitman. ISBN 9780273403159 (page 625)
↑Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement 2nd Edition, A. Higler. ISBN 9780750300605 (Page 331)
↑Aitken, Alexander Craig (1957) Statistical Mathematics 8th Edition. Oliver & Boyd. ISBN 9780050013007 (Page 95)
↑Dodge, Yadolah (2008). The Concise Encyclopedia of Statistics. [S.l.]: Springer. p. 115 — 119
↑ abDowdy, S. and Wearden, S. (1983). "Statistics for Research", Wiley. ISBN 0-471-08602-9 pp 230
↑ abHirsch, Robert P. (2016). Introduction to Biostatistical Applications in Health Research with Microsoft Office Excel. [S.l.]: Wiley. p. 150. 392 páginas
↑Dogde, Yadolah (2008). The Concise Encyclopedia of Statistics. [S.l.]: Springer. p. 88 — 91
↑Rodrigues, Lígia Henriques (18 de maio de 2015). «Regressão Linear Simples»(PDF). IMEUSP. p. 7. Consultado em 19 de maio de 2017
↑ abcGniazdowski, Zenon (2013). «Geometric interpretation of a correlation»(PDF). Zeszyty Naukowe Warszawskiej Wyższej Szkoły Informatyki. 7 (9): 27-35. Consultado em 8 de junho de 2017
↑ abYule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. pp 258–270
↑Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.
↑Devore, Jay L. (2006). Probabilidade e Estatística para Engenharia e Ciências. [S.l.]: Cengage Learning. p. 432 — 433. 692 páginas
↑ abcFilho, Luiz Medeiros de Araujo Lima. «Correlação e Regressão»(PDF). UNIVERSIDADE FEDERAL DA PARAÍBA. p. 6. Consultado em 19 de maio de 2017
↑Viali, Lorí. «Estatística Básica»(PDF). Pontifícia Universidade Católica do Rio Grande do Sul (PUC–RS). Consultado em 7 de junho de 2017
↑Filho, Kepler de Souza Oliveira (10 de abril de 2013). «Mínimos Quadrados». Universidade Federal do Rio Grande do Sul. p. 1. Consultado em 22 de maio de 2017
↑Mahdavi Damghani B. (2013). «The Non-Misleading Value of Inferred Correlation: An Introduction to the Cointelation Model». Wilmott Magazine. doi:10.1002/wilm.10252 !CS1 manut: Usa parâmetro autores (link)
↑Komenda, Stanislav (1993). «"Dressing up" with correlation»(PDF). Information Bulletin of Czech Statistical Society. 4. Consultado em 8 de junho de 2017
↑Thorndike, Robert Ladd (1947). Research problems and techniques (Report No. 3). Washington DC: US Govt. print. off.
↑Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). «Scaled correlation analysis: a better way to compute a cross-correlogram». European Journal of Neuroscience: 1–21. doi:10.1111/j.1460-9568.2011.07987.x
↑Garlick, Andy. Estimating Risk: A Management Approach. [S.l.]: Gower. p. 187. ISBN9780566087769
↑Paiva, Delhi; Lauretto, Marcelo de Souza (2011). «Análise Exploratória de Dados». SIN5008 - Estatística computacional. Consultado em 14 de junho de 2017
↑Aldrich, John (1995). «Correlations Genuine and Spurious in Pearson and Yule». Statistical Science. 10 (4): 364–376. JSTOR2246135. doi:10.1214/ss/1177009870
↑Mahdavi Damghani, Babak (2012). «The Misleading Value of Measured Correlation». Wilmott. 2012 (1): 64–73. doi:10.1002/wilm.10167
↑Anscombe, Francis J. (1973). «Graphs in statistical analysis». The American Statistician. 27: 17–21. JSTOR2682899. doi:10.2307/2682899
↑Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome thirteenways2
Leitura adicional
COHEN, Jacob et al. Applied multiple regression/correlation analysis for the behavioral sciences. Routledge, 2013.
ZANIBONI, GUSTAVO TADEU et al. Fusao bayesiana de imagens utilizando coeficientes de correlaçao localmente adaptáveis. Anais do IX SBSR. Santos, SP, 1998.
جمهورية سريلانكا الديمقراطية الاشتراكية ශ්රී ලංකා ප්රජාතාන්ත්රික සමාජවාදී ජනරජය (سنهالية)இலங்கை ஜனநாயக சமூகவுடமைவாதக் குடியரசு (تاميلية)Democratic Socialist Republic of Sri Lanka (إنجليزية) سريلانكاعلم سريلانكا سري�...
Final Piala Presiden Republik 1935TurnamenPiala Presiden Republik 1935 Sevilla Sabadell 3 0 Tanggal30 Juni 1935StadionStadion Chamartín, MadridWasitPedro EscartínPenonton15.000← 1934 1936 → Final Piala Presiden Republik 1935 adalah pertandingan final ke-33 dari turnamen sepak bola Piala Presiden Republik untuk menentukan juara musim 1935. Pertandingan ini diikuti oleh Sevilla dan Sabadell dan diselenggarakan pada 30 Juni 1935 di Stadion Chamartín, Madrid. Sevilla memenangkan pe...
The first oil well in Bahrain was discovered in 1932. Plaque commemorating the discovery Part of a series on the History of Bahrain Ancient Bahrain Dilmun Tylos Awal Historical region Islam in Bahrain Al-Ala'a Al-Hadrami Reigning Dynasties Qarmatians Uyunid dynasty Usfurid and Jarwanid dynasties Jabrid dynasty Portuguese occupation Muqrin ibn Zamil Antonio Correia Safavid hegemony 1717 Omani invasion of Bahrain 1783–1971 1783 Bani Utbah invasion of Bahrain Perpetual Truce of Peace and Frien...
مسجد شهيدي معلومات عامة القرية أو المدينة تبريز، محافظة أذربيجان الشرقية الدولة إيران تعديل مصدري - تعديل مسجد شهيدي هو مسجد تاريخي يعود إلى عصر القاجاريون، ويقع في تبريز.[1] مراجع ^ Encyclopaedia of the Iranian Architectural History. Cultural Heritage, Handicrafts and Tourism Organization of Iran. 19 مايو 2011. مؤرشف ...
Pabrik kertas dan pukp Kraft milik International Paper Company di Georgetown, Carolina Selatan. Saat dibangun, pabrik tersebut adalah pabrik terbesar di dunia. Pabrik kertas adalah sebuah pabrik yang dipakai untuk membuat kertas dari serat-serat vegetasi seperti pulp kayu dan bahan lainnya. Sebelum penemuan dan adopsi mesin Fourdrinier dan jenis mesin kertas lainnya yang memakai sabuk tanpa ujung, semua kertas dalam pabrik kertas dibuat dengan tangan, satu lembar pada satu kali, oleh para ten...
Premio StregaRiconoscimento al miglior libro di narrativa italiana contemporanea Assegnato daFondazione Bellonci Intitolato aLiquore Strega Paese Italia Anno inizio1947 Sito webwww.premiostrega.it/ Modifica dati su Wikidata · Manuale Il Premio Strega è un premio letterario assegnato annualmente all'autore di un libro pubblicato in Italia, tra il 1º marzo dell’anno precedente e il 28 febbraio dell’anno in corso, come espressamente recitato dall'articolo 5 del regolamento.[...
Ahli waris tetap adalah seseorang ahli waris takhta yang kedudukannya tidak bisa digeser secara hukum dengan kelahiran orang lain. Hal ini berbeda dengan ahli waris sementara yang kedudukannya dapat digeser bila lahir orang lain yang dipandang lebih pantas menjadi ahli waris. Ahli waris tetap dapat disamakan dengan putra mahkota (putri mahkota untuk wanita). Setiap negara memiliki gelar khusus untuk putra mahkota, seperti Pangeran Orange di Belanda, Pangeran Asturias di Spanyol, atau Pangeran...
Disambiguazione – Se stai cercando l'ex calciatore svizzero, vedi Patrik Baumann. Questa voce sull'argomento dirigenti sportivi svizzeri è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Patrick Baumann Patrick Baumann (Basilea, 5 agosto 1967 – Buenos Aires, 13 ottobre 2018) è stato un dirigente sportivo svizzero. Ha ricoperto l'incarico di Segretario generale della FIBA dal 2003 al 2018. Scomparso prematuramente nel 2018 per un attacco cardiaco, n...
Dalam artikel ini, nama keluarganya adalah Mattotorang, nama keluarga patronimik Bugis; Andi adalah gelar kehormatan bangsawan Bugis. Artikel ini membutuhkan penyuntingan lebih lanjut mengenai tata bahasa, gaya penulisan, hubungan antarparagraf, nada penulisan, atau ejaan. Anda dapat membantu untuk menyuntingnya. Andi Harmil Mattotorang Wakil Bupati Maros ke-2Masa jabatan17 Februari 2016[1] – 2020PresidenJoko WidodoGubernurSyahrul Yasin Limpo Soni Sumarsono (Pj.)Nurdin ...
The Metal Gear series has seen releases on several different media. This includes promotional material such as toys, artwork, and guides. Metal Gear is a stealth action video game series created by Hideo Kojima and developed and published by Konami. The series debuted in Japan on July 12, 1987, with Metal Gear[1] and is one of Konami's best-selling franchises, with over 26.5 million units sold.[2] The games take place in a semi-fictional universe with stories that involve a s...
هذه المقالة بحاجة لصندوق معلومات. فضلًا ساعد في تحسين هذه المقالة بإضافة صندوق معلومات مخصص إليها. هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (أبريل 2023) منع الأكياس البلاستيكية هو قانون يُقيد استخدام الأكياس ال...
Tony JaaLahirJaa Panom Yeerum5 Februari 1976 (umur 48)Provinsi Surin, Isaan, ThailandNama lainJaa PhanomPekerjaanAktorTahun aktif1994-sekarang Tony Jaa atau Tatchakorn Yeerum (bahasa Thai: ทัชชกร ยีรัมย์; atau dahulu Panom Yeerum (bahasa Thai: พนม ยีรัมย์; IPA: [pʰanom jiːrɑm]) (lahir 5 Februari 1976) adalah aktor laga beladiri Muay Thai. Lahir di provinsi Surin, Tony Jaa tumbuh dipedesaan. Ia sering menyaksikan fil...
Fictional team from Marvel Comics New WarriorsCover art for New Warriors (vol 5) #1 by Marcus ToPublication informationPublisherMarvel ComicsFirst appearance(cameo) The Mighty Thor #411 (December 1989)Created byTom DeFalco (writer)Ron Frenz (artist)In-story informationType of organizationTeamAgent(s)Current roster:HaechiHummingbirdJusticeNovaScarlet SpiderSpeedball/PenanceSun GirlSilhouetteWater SnakeRosterSee: New Warriors members The New Warriors is a fictional superhero team appearing in A...
باسكال هيرفي (بالفرنسية: Pascal Hervé) معلومات شخصية الميلاد 13 يوليو 1964 (العمر 60 سنة)تور الجنسية فرنسا الحياة العملية الدور دراج المهنة دراج، ومدير رياضي [لغات أخرى] نوع السباق سباق الدراجات على الطريق آخر تحديث 6 سبتمبر 2007 تعديل مصدري - تعديل باسكال ه�...
This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Gravity of Earth – news · newspapers · books · scholar · JSTOR (September 2024) (Learn how and when to remove this message) Earth's gravity measured by NASA GRACE mission, showing deviations from the theoretical gravity of an idealized, smooth Earth, the so-ca...
Chinese philosopher and statesman (280–233 BC) For imperial Chinese consorts, see Consort Han (disambiguation). Han Fei-Tzu redirects here. For the Ender's Game character, see Han Fei-tzu (Ender's Game). In this Chinese name, the family name is Han. Han FeiBornc. 280 BCState of HanDied233 BCState of QinCause of deathSuicide by drinking poisonNotable workHan FeiziEraAncient philosophyRegionChinese philosophySchoolLegalismMain interestsFaXingmingWu weiDaoDiplomacy Chinese...
Mark IvanirBiographieNaissance 6 septembre 1964 ou 6 septembre 1968TchernivtsiNationalités israélienne (depuis 1972)soviétiqueActivités ActeurPériode d'activité Depuis 1988Autres informationsSite web (en) markivanir.commodifier - modifier le code - modifier Wikidata Mark Ivanir, né le 6 septembre 1968 à Tchernivtsi en actuelle Ukraine, est un acteur israélien, originaire d'Ukraine, connu notamment pour son apparition dans le film La Liste de Schindler en 1993 et dans la série A...
Para el barrio porteño, véase Agronomía (Buenos Aires). Este artículo o sección tiene referencias, pero necesita más para complementar su verificabilidad. Busca fuentes: «Agronomía» – noticias · libros · académico · imágenesEste aviso fue puesto el 2 de marzo de 2021. La agronomía está presente en los cultivos hoy en día. La agronomía[1] (del latín ager, ‘campo’, y del griego νόμος nomos, ‘ley’),[2] formalizada como ingenier�...