Informação mútua

Diagrama mostrando as relações aditivas e subtrativas de várias medidas de informação associadas com as variaveis correlacionadas X e Y. A área contida pelos dois círculos é a entropia conjunta Η(X,Y). O círculo na esquerda (vermelho e violeta) é a entropia individual H(X), sendo o círculo vermelho a entropia condicional Η(X|Y). O círculo na direita (azul e violeta) é H(Y), sendo o azul Η(Y|X). O círculo violeta é a informação mútua I(X;Y)

Em teoria das probabilidades e teoria da informação, a informação mútua (em inglês MI de en:Mutual information) de duas variáveis aleatórias é a medida da dependência mútua entre as duas variáveis. Mais especificamente, a informação mútua quantifica a informação (em unidades como shannons, mais conhecidos como bits) que uma variável aleatória contém acerca da outra. O conceito de informação mútua esta intrinsicamente ligado ao da entropia de uma variável aleatória, uma noção fundamental da teoria da informação, que define a "quantidade de informação" contida em uma variável aleatória.

Não sendo limitado a variáveis aleatória com valores reais como o coeficiente de correlação, a MI é mais genérica e determina quão similar a distribuição conjunta p(X,Y) é à dos produtos das distribuições marginais p(X)p(Y). MI é o valor esperado da pointwise mutual information (PMI).

Definição

Formalmente a informação mútua[1] de duas variáveis aleatórias discretas, X e Y pode ser definida como:

onde p(x,y) é a distribuição de probabilidade conjunta de X e Y, e e são funções de probabilidade de distribuição marginal de X e Y, respectivamente. No caso de variáveis aleatórias contínuas, a somatória é substituída por uma integral dupla definida:

onde p(x,y) é agora a função de densidade de probabilidade conjunta de X e Y, p(x) e p(y) são funções de densidade de probabilidade marginal de X e Y, respectivamente.

Usando o logaritmo de base 2, a unidade da informação mútua será bits.

Motivação

Intuitivamente, a informação mútua mede a informação compartilhada entre X e Y: ela mede quanto o conhecimento de uma destas variáveis reduz a incerteza sobre a outra. Por exemplo, se X e Y são independentes, então conhecer X não fornece nenhuma informação sobre Y e vice versa, então a informação mútua delas será zero. No outro extremo, se X for uma função determinística de Y e Y for uma função determinística de X então toda a informação contida em X é compartilhada por Y: conhecer X determina o valor de Y e vice versa. Como resultado, neste caso a informação mútua é o mesmo que a incerteza contida em Y (ou X) sozinha, chamada de entropia de Y (ou X). Além disto, esta informação mútua é a mesma que a entropia de X e também que a entropia de Y. (Um caso bem especial disto é quando X e Y são a mesma variável aleatória.)

Informação mútua é uma medida da dependência inerente expressada pela distribuição de probabilidade conjunta de X e Y relativas à distribuição conjuntas de X e Y assumindo que sejam independentes. Informação mútua portanto mede a dependência no sentido que: I(X; Y) = 0 se e somente se X e Y são variáveis aleatórias independentes. Isto é fácil de ver num dos sentidos: se X e Y são independentes, então p(x,y) = p(x)p(y), e portanto:

Além disto, a informação mútua é não-negativa (i.e. I(X;Y) ≥ 0; veja abaixo) e uma função simétrica (i.e. I(X;Y) = I(Y;X)).

Propriedades

;

se, e somente se, X e Y forem variáveis aleatórias independentes;

Dada a forte relação entre Informação Mútua e Entropia, temos os seguintes corolários:

, ;


Relação com outras quantidades

Não-negatividade

Usando a desigualdade de Jensen na definição da informação mútua podemos mostrar que I(X;Y) é não-negativa, i.e.

Relação com a entropia condicional e conjunta

Informação mútua pode ser expressada equivalentemente como

onde e são entropias marginais, Η(X|Y) e Η(Y|X) são as entropias condicionais, e Η(X,Y) é a entropia conjunta de X e Y. Note a analogia da união, diferença e intersecção de dois conjuntos, conforme ilustrado no diagrama de Venn. Em termos de canais de comunicação nos quais a saída é uma versão ruídosa da entrada , essas relações estão resumidas na figura abaixo.

Relações entre as quantidades da teoria da informação

Como I(X;Y) é não-negativa, consequentemente, . Aqui temos a dedução detalhada de I(X;Y) = Η(Y) – Η(Y|X):

As provas das outras identidades acima são similares.

Intuitivamente, se a entropia H(Y) é considerada como uma medida da incerteza sobre uma variável aleatória, então H(Y|X) é uma medida do quanto X não diz sobre Y. Isto é "a quantidade de incerteza restando sobre Y depois que X é conhecido", e então o lado direito da primeira dessas igualdades pode ser lido como "a quantidade de incerteza em Y, menos a quantidade de incerteza em Y que sobra após X ser conhecido", que é equivalente à "quantidade de incerteza em Y que é removida por conhecer X". O que corrobora o sentido intuitivo da informação mútua como a quantidade de informação (ou seja, redução da incerteza) que conhecer qualquer variável produz sobre a outra.

Note que no caso discreto H(X|X) = 0 e portanto Η(X) = I(X;X). Então, I(X;X) ≥ I(X;Y), e pode-se formular o princípio básico que uma variável contém pelo menos tanta informação sobre si mesma quanto qualquer outra variável pode fornecer.

Relação com a divergência de Kullback-Leibler

Informação mútua também pode ser expressa como uma divergência de Kullback-Leibler do produto das distribuições marginais, p(x) x p(y), de duas variável aleatórias X e Y, e da distribuição conjunta p(x,y) das variáveis:

Além disso, faça p(x|y) = p(x, y) / p(y). Então

Note-se aqui que a divergência de Kullback-Leibler envolve a integração a respeito apenas da variável aleatória X e que a expressão é agora uma variável aleatória em Y. Então a informação mútua pode ser entendida como o valor esperado da divergência de Kullback-Leibler da distribuição univariável p(x) de X da distribuição condicional p(x|y) de X dado Y: quanto mais diferentes são as distribuições p(x|y) e p(x) na média, maior é a divergência de Kullback-Leibler.

Estimativa bayesiana da informação mútua

É fazer a estimativa bayesiana da informação mútua de uma distribuição conjunta baseada em amostras da distribuição. O primeiro trabalho a fazer isto, que também demonstrou como fazer uma estimativa Bayesiana de muitas outras informações teóricas além da informação mútua, foi.[2] Pesquisadores subsequentes rederivaram[3] e estenderam[4] esta análise. Veja[5] para um artigo recente baseado em anteriores especialmente personalizados para a estimação da informação mútua em específico.

Variações

Diversas variações da informação mútua foram propostas para acomodar necessidades diversas. Entre essas existem variantes normalizadas e generalizações para mais do que duas variáveis.

Métrica

Muitas aplicações requerem uma métrica, ou seja, uma medida de distância entre pares de pontos. A quantidade

satisfaz as propriedades de uma métrica (desigualdade triangular, não negatividade, indiscernibilidade e simetria). Esta métrica de distância é também conhecida como variação da informação.

Se são variáveis aleatórias discretas então todos os termos de entropia são não-negativos, assim e pode-se definir uma distância normalizada

A métrica D é uma métrica universal, no sentido de que se qualquer outra medida de distância colocar X e Y próximos, então D também irá julgá-los próximos.[6]

Colocando as definições, demonstra-se que

Numa interpretação da informação na teoria dos conjuntos (veja o diagrama de Venn nesta páginas), esta é efetivamente a distância de Jaccard entre X e Y.

Finalmente,

também é uma métrica.

Informação mútua condicional

Às vezes é útil expressar a informação mútua de duas variáveis aleatórias condicionadas por uma terceira.

que pode ser simplificado como

Condicionar numa terceira variável aleatória pode também aumentar ou diminuir a informação mútua, mas é sempre verdadeiro que

para variáveis aleatórias discretas X, Y e Z distribuídas conjuntamente. Este resultado pode ser usado como um base de construção para fornecer outras desigualdades na teoria da informação.

Informação mútua de multivariáveis

Diversas generalizações da informação mútua para mais do que duas variáveis aleatórias foram propostas, tais como en:total correlation e en:interaction information. Se a entropia de Shannon é vista como uma en:signed measure no contexto de diagramas de informação, como explicado no artigo en:Information theory and measure theory, então a única definição de informação mútua multivariável que faz sentido é o seguinte:

e para

onde (como acima) definimos

(Esta definição de informação mútua multivariável é idêntica a da en:interaction information com exceção de uma mudança de sinais quando o número de variáveis aleatórias é ímpar.)

Aplicações

A aplicação cega de diagramas de informação para desenvolver a definição acima foi criticada e realmente encontrou-se aplicações práticas limitadas já que é dificil de visualizar ou perceber o significado desta quantidade para um número grande de variáveis aleatórias. Ele pode ser zero, positivo ou negativo para qualquer número ímpar de variáveis

Um modelo generalizado de grandes dimensões que maximiza a informação mútua entre distribuições conjuntas e outras variáveis encontrou-se útil em seleção de atributos para aprendizado de máquinas.[7]

Informação mútua também é utilizada na área de processamento de sinais como uma medida de similaridade entre dois sinais. Por exemplo a métrica FMI[8] que é uma medida da performance de fusão de imagens utilizando a informação mútua para medir a quantidade de informação que a imagem fundida contém das imagens originais. O código MATLAB para esta métrica pode ser encontrado em.[9]

Informação direcionada

Informação direcionada, , mede a quantidade de informação que flui do processo para , onde denota o vetor e denota . O termo "informação direcionada" foi criado por en:James Massey e é definido como

.

Note que se n = 1, a informação direcionada se torna a informação mútua. Informação direcionada tem muitas aplicações em problemas onde a casualidade tem um papel importante, como a capacidade de um canal com retroalimentação.[10][11]

Variantes Normalizadas

Variantes normalizadas da informação mútua são fornecidas pelos coeficientes de restrição,[12] coeficientes de incerteza[13] ou proficiência:[14]

Os dois coeficientes não são necessariamente iguais. Em alguns casos uma medida de simetria pode ser desejada, como a medida de redundância a seguir:

que atinge o mínimo de zero quando as variáveis são independentes e um valor máximo de

quando uma das variáveis se torna completamente redundante com o conhecimento da outra. Ver também en:Redundancy (information theory). Outra medida simétrica é a incerteza simétrica (Witten & Frank 2005), dada por

que representa a média harmônica de dois coeficientes de incerteza .[13]

Se considerarmos a informação mútua como um caso especial da correlação total ou correlação total dupla, as versões normalizadas são respetivamente

e

Esta versão normalizada também conhecida como relação qualidade informação (em inglês Information Quality Ratio ou IQR) que quantifica a porção de informação de uma variável baseada em outra variável contra a incerteza total:[15]

Existe uma normalização[16] que deriva da primeira noção de informação mútua como análoga à covariância (então a entropia da informação é análoga à variância). Assim, a informação mútua normalizada é calculada de forma semelhante ao coeficiente de correlação de Pearson,

Variantes ponderadas

Variantes ponderadas ou pesadas são a fórmula tradicional da informação mútua,

onde cada evento ou objeto especificado por é ponderado por uma probabilidade correspondente . Isto assume que todos os objetos ou eventos são equivalentes afora sua probabilidade de ocorrência. Entretanto, em algumas aplicações pode ocorrer de certos objetos ou eventos serem mais significativos que outros, ou que certos padrões de associação serem mais importantes semanticamente do que outros.

Por exemplo, o mapa determinístico pode ser visto como mais forte do que o mapa determinístico , embora essas relações possam produzir a mesma informação mútua. Isto é pela informação mútua não ser nem um pouco sensitiva à qualquer ordem inerente aos valores das variáveis (Cronbach 1954, Coombs, Dawes & Tversky 1970, Lockhead 1970), e não ser portanto nada sensitiva à forma do mapa relacional das variáveis associadas. Se for desejado que o primeiro mapa determinístico-mostrando uma concordância de todos os valores das variáveis-seja jugado mais forte que o último mapa, então é possível usar a seguinte informação mútua ponderada (Guiasu 1977).

que coloca um peso na probabilidade de co-ocorrência de cada valor das variáveis, . Isto permite que certas probabilidade carreguem maior ou menor significância do que outras, assim permitindo a quantificação da relevância de fatores holisticos ou de Prägnanz. No exemplo acima, usar pesos relativamente maiores para , , e teria o mesmo efeito que assegurar um fator de informação informação maior para a relação do que para a relação , o que pode ser desejável em alguns casos como reconhecimento de padrões e afins. Esta informação mútua ponderada é uma forma da divergência KL ponderada, que é conhecida por levar valores negativas para algumas entradas[17] assim como existem exemplos da informação mútua ponderada também receber valores negativos.[18]

Informação Mútua ajustada

Uma distribuição de probabilidades pode ser vista como uma partição de um conjunto, pode-se então perguntar: se um conjunto for particionado aleatoriamente, qual seria a distribuição de probabilidades? Qual seria o valor esperado da informação mútua? A informação mútua ajustada (em inglês {{:en:adjusted mutual information}} ou AMI) subtrai o valor esperado da MI (informação mútua) tal que a AMI seja zero quando duas distribuições diferentes forem aleatórias, e um quando duas distribuições são idênticas. A AMI é definida em analogia ao índice de Rand ajustado de duas partições diferentes de um conjunto.

Informação mútua absoluta

Usando ideias da complexidade de Kolmogorov, pode-se considerar a informação mútua de duas sequências independentes de qualquer distribuição de probabilidade:

Para estabelecer que esta quantidade é simétrica à um fator logarítmico () precisamos da regra da cadeia da complexidade de Kolmogorov (Li & Vitányi 1997). Aproximações dessa quantidade por Compressão de dados podem ser usadas para definir uma métrica de distância para efetuar o agrupamento hierárquico das sequências sem tem qualquer conhecimento no domínio das sequências (Cilibrasi & Vitányi 2005).

Correlação linear

Ao contrário dos coeficientes de correlação, como o Coeficiente de correlação de Pearson, a informação mútua contém informações sobre toda a dependência, linear e não-linear, e não apenas da dependência linear. Entretanto, no caso restrito em que a distribuição conjunta para X e Y seja uma distribuição normal bivariada (implicando em particular que ambas distribuições marginais sejam normalmente distribuídas), existe uma relação exata entre I e o coeficiente de correlação (Gel'fand & Yaglom 1957).

A equação acima pode ser desenvolvida como abaixo para uma gaussiana bivariada:

Portanto,

Para dados discretos

Quando X e Y são limitados em um número discreto de estados, os dados observados são resumidos em uma tabela de contingência, com a variável X (ou i) nas linhas e a variável Y (ou j) nas colunas. A informação mútua é uma das medidas de associatividade ou correlação entre as variáveis das linhas e colunas. Outra medida de associação inclui o teste qui-quadrado de Pearson, o teste G estatístico, etc. De fato, a informação mútua é igual ao teste G estatístico dividido por 2N, onde N é o tamanho da amostra.

Aplicações

Em muitas aplicações se quer maximizar a informação mútua (assim aumentando a dependência), o que é muitas vezes equivalente a minimizar a entropia condicional. Exemplos incluem:

  • Em tecnologias de Motores de busca, a informação mútua entre frases e contextos é usada como um atributo para agrupamento ou clustering por K-means descrobrindo grupos semânticos (conceituais).[19]
  • Em telecomunicações, a capacidade do canal é igual à informação mútua, maximizada sobre todas as distribuições de entradas.
  • Métodos de modelagem discriminativa para cadeias de Markov escondidas foram propostos baseados no critério de informação mútua máxima.
  • Predição da Estrutura secundária do RNA a partir do Alinhamento múltiplo de sequências
  • Predição do perfil filogenético a partir de pares presentes e ausentes de genes funcionais.
  • Informação mútua tem sido usada como critéria para a seleção de atributos e transformações de atributos em aprendizado de máquinas. Ela pode ser usada tanto para caracterizar a relevância e redundância de variáveis como um método de selecionamento do atributo redundante mínimo.
  • Informação mútua é usada para determinar a similaridade de dois agrupamentos de dados diferentes de um conjunto de dados (dataset). Como tal ela provê algumas vantagens sobre a técnica tradicional usando índice de Rand.
  • Informação mútua de palavras é comumente usada como uma função de significância para a computação de colocações em linguística. Isto tem a complexidade adicional de que nenhuma palavra-instância é uma instância de duas palavras diferentes, ao contrário, conta-se instâncias como 2 palavras que ocorrem adjacentes ou próximas, o que complica um pouco o cálculo já que a probabilidade esperada de uma palavra ocorrer dentro de N palavras distantes de outra aumenta com N.
  • Informação mútua é usada em imagiologia médica para o corregistro de imagens. Dada uma imagem de referência (por exemplo uma imagem do cérebro) e uma segunda imagem que precisa ser colocada no mesmo sistema de coordenadas que a imagem de referência, esta segunda imagem é deformada até que a informação mútua entre ela e a primeira seja maximizada.
  • Detecção da sincronização de fase em análise de séries temporais.
  • No método infomax para redes neurais e outras aprendizagens de máquina, incluindo o algóritmo análise independente de componentes baseado em infomax.
  • Informação mútua média no teorema do mergulho de Takens é usada para determinar o parâmetro de atraso.
  • Informação mútua entre genes em microarranjos é usado pelo algoritmo ARACNE para a reconstrução de redes genéticas.
  • Em mecânica estatística, o paradoxo de Loschmidt pode ser expresso em termos da informação mútua.[20][21] Loschmidt demonstrou que é impossível determinar uma lei física que não tenha simetria temporal reversa (e.g. segunda lei da termodinâmica) somente a partir de leis físicas que tenham esta simetria. Ele mostrou que o teorema-H de Boltzmann assumiu que as velocidades das partículas em um gás eram permanentemente não correlacionadas, o que removia a simetria temporal inerente no teorema H. Pode ser mostrado que se um sistema é descrito por uma densidade de probabilidade no espaço de fases, entao o teorema de Liouville implica que a informação conjunta (negativo da entropia conjunta) da distribuição permanece constante no tempo. A informação conjunta é igual à informação mútua mais a soma de todas as informações marginais (negativo das entropias marginais) para cada coordenada das partículas. A assunção de Boltzmann equivale a ignorar a informação mútua no cálculo da entropia, o que fornece a entropia termodinâmica (dividida pela constante de Boltzmann).
  • A informação mútua é usada para aprender a estrutura das redes Bayesianas, que imagina-se explicar a relação causal entre variáveis aleatórias, como exemplicado pelo toolkit GlobalMIT [1]: aprendendo a rede dinâmica Bayesiana globalmente ótima com o critéria de teste da informação mútua.
  • Função de custo popular em aprendizado por árvores de decisão
  • A informação mútua é usada em Cosmologia para testar a influência de ambientes de larga escala nas propriedades da galáxia no Galaxy Zoo.
  • A informação mútua foi usada em Física Solar para derivar o perfil diferencial solar, um mapa de desvios no tempo de viagem para manchas solares, e um diagrama de tempo-distância para medidas do Sol quieto (quiet sun).[22]

Notas

  1. Cover, T.M.; Thomas, J.A. (1991). Elements of Information Theory Wiley ed. [S.l.: s.n.] ISBN 978-0-471-24195-9 
  2. Wolpert, D.H.; Wolf, D.R. (1995). «Estimating functions of probability distributions from a finite set of samples». Physical Review E 
  3. Hutter, M. (2001). «Distribution of Mutual Information». Advances in Neural Information Processing Systems 2001 
  4. Archer, E.; Park, I.M.; Pillow, J. (2013). «Bayesian and Quasi-Bayesian Estimators for Mutual Information from Discrete Data». Entropy 
  5. Wolpert, D.H; DeDeo, S. (2013). «Estimating Functions of Distributions Defined over Spaces of Unknown Size». Entropy 
  6. Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). «Hierarchical Clustering Based on Mutual Information». arXiv:q-bio/0311039Acessível livremente 
  7. Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008). An Introduction to Information Retrieval. [S.l.]: Cambridge University Press. ISBN 0-521-86571-9 
  8. Haghighat, M. B. A.; Aghagolzadeh, A.; Seyedarabi, H. (2011). «A non-reference image fusion metric based on mutual information of image features». Computers & Electrical Engineering. 37 (5): 744–756. doi:10.1016/j.compeleceng.2011.07.012 
  9. «Feature Mutual Information (FMI) metric for non-reference image fusion - File Exchange - MATLAB Central». www.mathworks.com. Consultado em 31 de Maio de 2018 
  10. Massey, James (1990). «Causality, Feedback And Directed Informatio» (ISITA) 
  11. Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (Fevereiro de 2009). «Finite State Channels With Time-Invariant Deterministic Feedback». IEEE Transactions on Information Theory. 55 (2): 644–662. arXiv:cs/0608070Acessível livremente. doi:10.1109/TIT.2008.2009849 
  12. Coombs, Dawes & Tversky 1970.
  13. a b Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). «Section 14.7.3. Conditional Entropy and Mutual Information». Numerical Recipes: The Art of Scientific Computing 3rd ed. New York: Cambridge University Press. ISBN 978-0-521-88068-8 
  14. White, Jim; Steingold, Sam; Fournelle, Connie. «Performance Metrics for Group-Detection Algorithms» (PDF) 
  15. Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny. «Information Quality Ratio as a novel metric for mother wavelet selection». Chemometrics and Intelligent Laboratory Systems. 160: 59–71. doi:10.1016/j.chemolab.2016.11.012 
  16. Strehl, Alexander; Ghosh, Joydeep (2002), «Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions» (PDF), The Journal of Machine Learning Research, 3 (Dec): 583–617 
  17. Kvålseth, T. O. (1991). «The relative useful information measure: some comments». Information sciences. 56 (1): 35–38. doi:10.1016/0020-0255(91)90022-m 
  18. Pocock, Adam (2012), Feature Selection Via Joint Likelihood (PDF) 
  19. Parsing a Natural Language Using Mutual Information Statistics by David M. Magerman and Mitchell P. Marcus
  20. Hugh Everett Theory of the Universal Wavefunction, Thesis, Princeton University, (1956, 1973), pp 1–140 (page 30)
  21. Everett, Hugh (1957). «Relative State Formulation of Quantum Mechanics». Reviews of Modern Physics. 29: 454–462. doi:10.1103/revmodphys.29.454. Consultado em 1 de junho de 2018. Arquivado do original em 27 de outubro de 2011 
  22. Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (Fevereiro de 2015). «Application of Mutual Information Methods in Time Distance Helioseismology». Solar Physics. 290 (3): 659–671. arXiv:1501.05597Acessível livremente. doi:10.1007/s11207-015-0650-y 

Referências