Medidas de dependência

Uma medida de dependência é um parâmetro associado a um par de variáveis aleatórias que codifica em seu valor a intensidade da dependência estatística entre as variáveis. Similarmente uma medida de concordância é um parâmetro que, além de dar informação a respeito da dependência estatística, também é capaz de informar a respeito da correlação entre a direção de movimento dessas variáveis.

Critérios de Renyi

De maneira informal e grosseira, uma medida de dependência diz quanta informação se obtém a respeito de uma variável quando o valor de outra variável é conhecido. Exemplos de candidatos à medida de dependência são a covariância e a correlação (a rigor a correlação seria candidata a medida de concordância e seu módulo a medida de dependência). Ambas carregam alguma informação a respeito de quanto o conhecimento de uma variável informa sobre sobre o valor da outra. Entretanto há algumas ressalvas a esse respeito:

  • é possível obter variáveis que não são estatísticamente independentes e no entanto possuem correlação nula.
  • a correlação é invariante por mudanças lineares de parâmetros, mas não é invariante por mudanças monotônicas de variáveis gerais, ou seja, em geral . Isso significa que uma mera mudança de escala pode mudar sua conclusão a respeito da intensidade da dependência, o que é algo indesejável.
  • além disso em geral não é possível demonstrar que uma correlação máxima () implica uma dependência monotônica entre as variáveis e .

Renyi estipulou um conjunto de exigências ou requisitos do que é razoável supor sobre boas medidas de dependência.[1][2] Segundo essa lista de exigências, uma medidas de dependência é um funcional da distribuição conjunta de qualquer par de variáveis X e Y com as seguintes propriedades:

  1. O funcional é simétrico na permutação de X e Y: ;
  2. , com se e somente se X e Y são estatisticamente independentes e se e somente se Y é, quase certamente, uma função estritamente monotônica de X;
  3. se f(.) e g(.) são duas funções estritamente monotônicas de seus argumentos, então ;
  4. no caso em que a distribuição conjunta de X e Y é uma distribuição normal, deve ser uma função monotônica do módulo da correlação;
  5. se a sequencia converge para então converge para .

Pode-se adaptar esses requisitos para medidas de concordância ajustando-se apenas os (2 - 4) da seguinte forma:

2. , com se e somente se X e Y são estatisticamente independentes, se e somente se Y é quase certamente uma função monotônica crescente de X e se e somente se Y é, quase certamente, uma função monotônica decrescente de X.
3. Se f(.) e g(.) são funções monotônicas sendo ambas crescentes ou ambas decrescentes, então . Caso uma das funções seja decrescente e a outra crescente, então .
4. no caso em que a distribuição conjunta de X e Y é uma distribuição normal, deve ser uma função monotônica crescente da correlação;


Relação com teoria de Cópulas

Diversas medidas de concordância e dependência podem ser facilmente relacionadas às respectivas cópulas. De fato, pode-se argumentar que toda boa medida de concordância ou dependência deve ser unicamente um funcional da cópula e ser independente das distribuições marginais.[3]

Exemplos de medidas de dependência

Tau de Kendall

O tau de Kendall é definido como:

onde é o número de pares concordantes, e é o número de pares discordantes do conjunto de dados. Alternativamente, é a probabilidade de que dois pontos sorteados da distribuição conjunta sejam concordantes, ou seja:

O Tau de Kendall pode ser escrito como um funcional da cópula:

Rho de Spearman

O coeficiente de correlação rho de Spearman é definido como a correlação entre os postos de X e Y. Pode ser escrito como função da cópula da seguinte forma:

Informação Mútua

A informação mútua é definida da seguinte forma:

,

onde S(.) é a entropia de Shannon. A informação mútua possui muitas interpretações do ponto de vista de teoria da informação, e pode ser compreendida como a diminuição na incerteza de uma das variáveis proporcionada pelo conhecimento da outra. A informação mútua pode ser estimada a partir de amostras de X e Y através do algoritmo de k-vizinhos de Kraskov-Stogbauer- Grassberger.[4]

Dependência nas caudas

Duas variáveis chamadas dependência na cauda superior e dependência na cauda inferior (upper and lower tail dependence) são usadas para caracterizar o aumento de dependência entre duas variáveis quando ocorrem eventos extremos. A dependência na cauda superior é definida como:

,

ou seja, a probabilidade de que se observe um valor de X maior no u-ésimo quantil dado que Y foi observado no u-ésimo quantil, no limite em que u se aproxima de 1. A dependência na cauda inferior é definida de forma similar.

Em função da cópula, as dependências na cauda são escritas como:


Veja também

Referências

  1. Renyi, A. (1959). «On measures of dependence.». Acta. Math. Acad. Sci. Hungar. (em inglês). 10. pp. 441–451 
  2. Schweizer, B.; Wolff, E. F. (1981). «On nonparametric measures of dependence for random variables.». The Annals of Statistics (em inglês). 9 (4). pp. 879–885 
  3. Dimitris Nicoloutsopoulos (2005). Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Tese de Ph.D. apresentada à universidade de Londres 
  4. Kraskov, A.; Stogbauer, H. and Grassberger, P. (2004). «Estimating mutual information.». Phys. Rev. E (em inglês). 69. 066138 páginas 
Este artigo é um esboço. Você pode ajudar a Wikipédia expandindo-o. Editor: considere marcar com um esboço mais específico.
Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.