Em teoria das probabilidades e teoria da informação, a informação mútua (em inglês MI de en:Mutual information) de duas variáveis aleatórias é a medida da dependência mútua entre as duas variáveis. Mais especificamente, a informação mútua quantifica a informação (em unidades como shannons, mais conhecidos como bits) que uma variável aleatória contém acerca da outra. O conceito de informação mútua esta intrinsicamente ligado ao da entropia de uma variável aleatória, uma noção fundamental da teoria da informação, que define a "quantidade de informação" contida em uma variável aleatória.
Não sendo limitado a variáveis aleatória com valores reais como o coeficiente de correlação, a MI é mais genérica e determina quão similar a distribuição conjunta p(X,Y) é à dos produtos das distribuições marginais p(X)p(Y). MI é o valor esperado da pointwise mutual information (PMI).
Definição
Formalmente a informação mútua[1] de duas variáveis aleatórias discretas, X e Y pode ser definida como:
onde p(x,y) é agora a função de densidade de probabilidade conjunta de X e Y, p(x) e p(y) são funções de densidade de probabilidade marginal de X e Y, respectivamente.
Usando o logaritmo de base 2, a unidade da informação mútua será bits.
Motivação
Intuitivamente, a informação mútua mede a informação compartilhada entre X e Y: ela mede quanto o conhecimento de uma destas variáveis reduz a incerteza sobre a outra. Por exemplo, se X e Y são independentes, então conhecer X não fornece nenhuma informação sobre Y e vice versa, então a informação mútua delas será zero. No outro extremo, se X for uma função determinística de Y e Y for uma função determinística de X então toda a informação contida em X é compartilhada por Y: conhecer X determina o valor de Y e vice versa. Como resultado, neste caso a informação mútua é o mesmo que a incerteza contida em Y (ou X) sozinha, chamada de entropia de Y (ou X). Além disto, esta informação mútua é a mesma que a entropia de X e também que a entropia de Y. (Um caso bem especial disto é quando X e Y são a mesma variável aleatória.)
Informação mútua é uma medida da dependência inerente expressada pela distribuição de probabilidade conjunta de X e Y relativas à distribuição conjuntas de X e Y assumindo que sejam independentes.
Informação mútua portanto mede a dependência no sentido que: I(X; Y) = 0 se e somente seX e Y são variáveis aleatórias independentes. Isto é fácil de ver num dos sentidos: se X e Y são independentes, então p(x,y) = p(x)p(y), e portanto:
Além disto, a informação mútua é não-negativa (i.e. I(X;Y) ≥ 0; veja abaixo) e uma função simétrica (i.e. I(X;Y) = I(Y;X)).
Propriedades
• ;
• se, e somente se, X e Y forem variáveis aleatórias independentes;
•
Dada a forte relação entre Informação Mútua e Entropia, temos os seguintes corolários:
• , ;
•
Relação com outras quantidades
Não-negatividade
Usando a desigualdade de Jensen na definição da informação mútua podemos mostrar que I(X;Y) é não-negativa, i.e.
Relação com a entropia condicional e conjunta
Informação mútua pode ser expressada equivalentemente como
onde e são entropias marginais, Η(X|Y) e Η(Y|X) são as entropias condicionais, e Η(X,Y) é a entropia conjunta de X e Y. Note a analogia da união, diferença e intersecção de dois conjuntos, conforme ilustrado no diagrama de Venn. Em termos de canais de comunicação nos quais a saída é uma versão ruídosa da entrada , essas relações estão resumidas na figura abaixo.
Como I(X;Y) é não-negativa, consequentemente, . Aqui temos a dedução detalhada de I(X;Y) = Η(Y) – Η(Y|X):
As provas das outras identidades acima são similares.
Intuitivamente, se a entropia H(Y) é considerada como uma medida da incerteza sobre uma variável aleatória, então H(Y|X) é uma medida do quanto X não diz sobre Y. Isto é "a quantidade de incerteza restando sobre Y depois que X é conhecido", e então o lado direito da primeira dessas igualdades pode ser lido como "a quantidade de incerteza em Y, menos a quantidade de incerteza em Y que sobra após X ser conhecido", que é equivalente à "quantidade de incerteza em Y que é removida por conhecer X". O que corrobora o sentido intuitivo da informação mútua como a quantidade de informação (ou seja, redução da incerteza) que conhecer qualquer variável produz sobre a outra.
Note que no caso discreto H(X|X) = 0 e portanto Η(X) = I(X;X). Então, I(X;X) ≥ I(X;Y), e pode-se formular o princípio básico que uma variável contém pelo menos tanta informação sobre si mesma quanto qualquer outra variável pode fornecer.
Note-se aqui que a divergência de Kullback-Leibler envolve a integração a respeito apenas da variável aleatória X e que a expressão é agora uma variável aleatória em Y. Então a informação mútua pode ser entendida como o valor esperado da divergência de Kullback-Leibler da distribuição univariávelp(x) de X da distribuição condicionalp(x|y) de X dado Y: quanto mais diferentes são as distribuições p(x|y) e p(x) na média, maior é a divergência de Kullback-Leibler.
Estimativa bayesiana da informação mútua
É fazer a estimativa bayesiana da informação mútua de uma distribuição conjunta baseada em amostras da distribuição. O primeiro trabalho a fazer isto, que também demonstrou como fazer uma estimativa Bayesiana de muitas outras informações teóricas além da informação mútua, foi.[2] Pesquisadores subsequentes rederivaram[3]
e estenderam[4]
esta análise. Veja[5] para um artigo recente baseado em anteriores especialmente personalizados para a estimação da informação mútua em específico.
Variações
Diversas variações da informação mútua foram propostas para acomodar necessidades diversas. Entre essas existem variantes normalizadas e generalizações para mais do que duas variáveis.
Métrica
Muitas aplicações requerem uma métrica, ou seja, uma medida de distância entre pares de pontos. A quantidade
Se são variáveis aleatórias discretas então todos os termos de entropia são não-negativos, assim e pode-se definir uma distância normalizada
A métrica D é uma métrica universal, no sentido de que se qualquer outra medida de distância colocar X e Y próximos, então D também irá julgá-los próximos.[6]
Às vezes é útil expressar a informação mútua de duas variáveis aleatórias condicionadas por uma terceira.
que pode ser simplificado como
Condicionar numa terceira variável aleatória pode também aumentar ou diminuir a informação mútua, mas é sempre verdadeiro que
para variáveis aleatórias discretas X, Y e Z distribuídas conjuntamente. Este resultado pode ser usado como um base de construção para fornecer outras desigualdades na teoria da informação.
(Esta definição de informação mútua multivariável é idêntica a da en:interaction information com exceção de uma mudança de sinais quando o número de variáveis aleatórias é ímpar.)
Aplicações
A aplicação cega de diagramas de informação para desenvolver a definição acima foi criticada e realmente encontrou-se aplicações práticas limitadas já que é dificil de visualizar ou perceber o significado desta quantidade para um número grande de variáveis aleatórias. Ele pode ser zero, positivo ou negativo para qualquer número ímpar de variáveis
Um modelo generalizado de grandes dimensões que maximiza a informação mútua entre distribuições conjuntas e outras variáveis encontrou-se útil em seleção de atributos para aprendizado de máquinas.[7]
Informação mútua também é utilizada na área de processamento de sinais como uma medida de similaridade entre dois sinais. Por exemplo a métrica FMI[8] que é uma medida da performance de fusão de imagens utilizando a informação mútua para medir a quantidade de informação que a imagem fundida contém das imagens originais. O código MATLAB para esta métrica pode ser encontrado em.[9]
Informação direcionada
Informação direcionada, , mede a quantidade de informação que flui do processo para , onde denota o vetor e denota . O termo "informação direcionada" foi criado por en:James Massey e é definido como
.
Note que se n = 1, a informação direcionada se torna a informação mútua.
Informação direcionada tem muitas aplicações em problemas onde a casualidade tem um papel importante, como a capacidade de um canal com retroalimentação.[10][11]
Os dois coeficientes não são necessariamente iguais. Em alguns casos uma medida de simetria pode ser desejada, como a medida de redundância a seguir:
que atinge o mínimo de zero quando as variáveis são independentes e um valor máximo de
quando uma das variáveis se torna completamente redundante com o conhecimento da outra. Ver também en:Redundancy (information theory). Outra medida simétrica é a incerteza simétrica (Witten & Frank 2005), dada por
Esta versão normalizada também conhecida como relação qualidade informação (em inglês Information Quality Ratio ou IQR) que quantifica a porção de informação de uma variável baseada em outra variável contra a incerteza total:[15]
Variantes ponderadas ou pesadas são a fórmula tradicional da informação mútua,
onde cada evento ou objeto especificado por é ponderado por uma probabilidade correspondente . Isto assume que todos os objetos ou eventos são equivalentes afora sua probabilidade de ocorrência. Entretanto, em algumas aplicações pode ocorrer de certos objetos ou eventos serem mais significativos que outros, ou que certos padrões de associação serem mais importantes semanticamente do que outros.
Por exemplo, o mapa determinístico pode ser visto como mais forte do que o mapa determinístico , embora essas relações possam produzir a mesma informação mútua. Isto é pela informação mútua não ser nem um pouco sensitiva à qualquer ordem inerente aos valores das variáveis (Cronbach 1954, Coombs, Dawes & Tversky 1970, Lockhead 1970), e não ser portanto nada sensitiva à forma do mapa relacional das variáveis associadas. Se for desejado que o primeiro mapa determinístico-mostrando uma concordância de todos os valores das variáveis-seja jugado mais forte que o último mapa, então é possível usar a seguinte informação mútua ponderada (Guiasu 1977).
que coloca um peso na probabilidade de co-ocorrência de cada valor das variáveis, . Isto permite que certas probabilidade carreguem maior ou menor significância do que outras, assim permitindo a quantificação da relevância de fatores holisticos ou de Prägnanz. No exemplo acima, usar pesos relativamente maiores para , , e teria o mesmo efeito que assegurar um fator de informação informação maior para a relação do que para a relação , o que pode ser desejável em alguns casos como reconhecimento de padrões e afins. Esta informação mútua ponderada é uma forma da divergência KL ponderada, que é conhecida por levar valores negativas para algumas entradas[17] assim como existem exemplos da informação mútua ponderada também receber valores negativos.[18]
Informação Mútua ajustada
Uma distribuição de probabilidades pode ser vista como uma partição de um conjunto, pode-se então perguntar: se um conjunto for particionado aleatoriamente, qual seria a distribuição de probabilidades? Qual seria o valor esperado da informação mútua? A informação mútua ajustada (em inglês {{:en:adjusted mutual information}} ou AMI) subtrai o valor esperado da MI (informação mútua) tal que a AMI seja zero quando duas distribuições diferentes forem aleatórias, e um quando duas distribuições são idênticas. A AMI é definida em analogia ao índice de Rand ajustado de duas partições diferentes de um conjunto.
Informação mútua absoluta
Usando ideias da complexidade de Kolmogorov, pode-se considerar a informação mútua de duas sequências independentes de qualquer distribuição de probabilidade:
Ao contrário dos coeficientes de correlação, como o Coeficiente de correlação de Pearson, a informação mútua contém informações sobre toda a dependência, linear e não-linear, e não apenas da dependência linear. Entretanto, no caso restrito em que a distribuição conjunta para X e Y seja uma distribuição normal bivariada (implicando em particular que ambas distribuições marginais sejam normalmente distribuídas), existe uma relação exata entre I e o coeficiente de correlação (Gel'fand & Yaglom 1957).
A equação acima pode ser desenvolvida como abaixo para uma gaussiana bivariada:
Portanto,
Para dados discretos
Quando X e Y são limitados em um número discreto de estados, os dados observados são resumidos em uma tabela de contingência, com a variável X (ou i) nas linhas e a variável Y (ou j) nas colunas. A informação mútua é uma das medidas de associatividade ou correlação entre as variáveis das linhas e colunas. Outra medida de associação inclui o teste qui-quadrado de Pearson,
o teste G estatístico, etc. De fato, a informação mútua é igual ao teste G estatístico dividido por 2N, onde N é o tamanho da amostra.
Aplicações
Em muitas aplicações se quer maximizar a informação mútua (assim aumentando a dependência), o que é muitas vezes equivalente a minimizar a entropia condicional. Exemplos incluem:
Em tecnologias de Motores de busca, a informação mútua entre frases e contextos é usada como um atributo para agrupamento ou clustering por K-means descrobrindo grupos semânticos (conceituais).[19]
Predição do perfil filogenético a partir de pares presentes e ausentes de genes funcionais.
Informação mútua tem sido usada como critéria para a seleção de atributos e transformações de atributos em aprendizado de máquinas. Ela pode ser usada tanto para caracterizar a relevância e redundância de variáveis como um método de selecionamento do atributo redundante mínimo.
Informação mútua é usada para determinar a similaridade de dois agrupamentos de dados diferentes de um conjunto de dados (dataset). Como tal ela provê algumas vantagens sobre a técnica tradicional usando índice de Rand.
Informação mútua de palavras é comumente usada como uma função de significância para a computação de colocações em linguística. Isto tem a complexidade adicional de que nenhuma palavra-instância é uma instância de duas palavras diferentes, ao contrário, conta-se instâncias como 2 palavras que ocorrem adjacentes ou próximas, o que complica um pouco o cálculo já que a probabilidade esperada de uma palavra ocorrer dentro de N palavras distantes de outra aumenta com N.
Informação mútua é usada em imagiologia médica para o corregistro de imagens. Dada uma imagem de referência (por exemplo uma imagem do cérebro) e uma segunda imagem que precisa ser colocada no mesmo sistema de coordenadas que a imagem de referência, esta segunda imagem é deformada até que a informação mútua entre ela e a primeira seja maximizada.
Em mecânica estatística, o paradoxo de Loschmidt pode ser expresso em termos da informação mútua.[20][21] Loschmidt demonstrou que é impossível determinar uma lei física que não tenha simetria temporal reversa (e.g. segunda lei da termodinâmica) somente a partir de leis físicas que tenham esta simetria. Ele mostrou que o teorema-H de Boltzmann assumiu que as velocidades das partículas em um gás eram permanentemente não correlacionadas, o que removia a simetria temporal inerente no teorema H. Pode ser mostrado que se um sistema é descrito por uma densidade de probabilidade no espaço de fases, entao o teorema de Liouville implica que a informação conjunta (negativo da entropia conjunta) da distribuição permanece constante no tempo. A informação conjunta é igual à informação mútua mais a soma de todas as informações marginais (negativo das entropias marginais) para cada coordenada das partículas. A assunção de Boltzmann equivale a ignorar a informação mútua no cálculo da entropia, o que fornece a entropia termodinâmica (dividida pela constante de Boltzmann).
A informação mútua é usada para aprender a estrutura das redes Bayesianas, que imagina-se explicar a relação causal entre variáveis aleatórias, como exemplicado pelo toolkit GlobalMIT [1]: aprendendo a rede dinâmica Bayesiana globalmente ótima com o critéria de teste da informação mútua.
A informação mútua é usada em Cosmologia para testar a influência de ambientes de larga escala nas propriedades da galáxia no Galaxy Zoo.
A informação mútua foi usada em Física Solar para derivar o perfil diferencial solar, um mapa de desvios no tempo de viagem para manchas solares, e um diagrama de tempo-distância para medidas do Sol quieto (quiet sun).[22]
Notas
↑Cover, T.M.; Thomas, J.A. (1991). Elements of Information Theory Wiley ed. [S.l.: s.n.] ISBN978-0-471-24195-9
↑Wolpert, D.H.; Wolf, D.R. (1995). «Estimating functions of probability distributions from a finite set of samples». Physical Review E
↑Hutter, M. (2001). «Distribution of Mutual Information». Advances in Neural Information Processing Systems 2001
↑Archer, E.; Park, I.M.; Pillow, J. (2013). «Bayesian and Quasi-Bayesian Estimators for Mutual Information from Discrete Data». Entropy
↑Wolpert, D.H; DeDeo, S. (2013). «Estimating Functions of Distributions Defined over Spaces of Unknown Size». Entropy
↑Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). «Hierarchical Clustering Based on Mutual Information». arXiv:q-bio/0311039
↑Haghighat, M. B. A.; Aghagolzadeh, A.; Seyedarabi, H. (2011). «A non-reference image fusion metric based on mutual information of image features». Computers & Electrical Engineering. 37 (5): 744–756. doi:10.1016/j.compeleceng.2011.07.012
↑Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (Fevereiro de 2009). «Finite State Channels With Time-Invariant Deterministic Feedback». IEEE Transactions on Information Theory. 55 (2): 644–662. arXiv:cs/0608070. doi:10.1109/TIT.2008.2009849
↑Kvålseth, T. O. (1991). «The relative useful information measure: some comments». Information sciences. 56 (1): 35–38. doi:10.1016/0020-0255(91)90022-m
↑Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (Fevereiro de 2015). «Application of Mutual Information Methods in Time Distance Helioseismology». Solar Physics. 290 (3): 659–671. arXiv:1501.05597. doi:10.1007/s11207-015-0650-y
Cronbach, L. J. (1954). «On the non-rational application of information measures in psychology». In: Quastler, Henry. Information Theory in Psychology: Problems and Methods. Glencoe, Illinois: Free Press. pp. 14–30
Coombs, C. H.; Dawes, R. M.; Tversky, A. (1970). Mathematical Psychology: An Elementary Introduction. Englewood Cliffs, New Jersey: Prentice-Hall
Gel'fand, I.M.; Yaglom, A.M. (1957). «Calculation of amount of information about a random function contained in another such function». American Mathematical Society Translations: Series 2. 12: 199–246 English translation of original in Uspekhi Matematicheskikh Nauk12 (1): 3-52.
Guiasu, Silviu (1977). Information Theory with Applications. [S.l.]: McGraw-Hill, New York. ISBN978-0-07-025109-0
Li, Ming; Vitányi, Paul (Fevereiro de 1997). An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. ISBN0-387-94868-6
Lockhead, G. R. (1970). «Identification and the form of multidimensional discrimination space». Journal of Experimental Psychology. 85 (1): 1–10. PMID5458322. doi:10.1037/h0029508
Haghighat, M. B. A.; Aghagolzadeh, A.; Seyedarabi, H. (2011). «A non-reference image fusion metric based on mutual information of image features». Computers & Electrical Engineering. 37 (5): 744–756. doi:10.1016/j.compeleceng.2011.07.012
Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
Andre S. Ribeiro; Stuart A. Kauffman; Jason Lloyd-Price; Bjorn Samuelsson & Joshua Socolar (2008). «Mutual Information in Random Boolean models of regulatory networks». Physical Review E. 77 (1). arXiv:0707.3642. doi:10.1103/physreve.77.011901
Pandey, Biswajit; Sarkar, Suman (2017). «How much a galaxy knows about its large-scale environment?: An information theoretic perspective». Monthly Notices of the Royal Astronomical Society Letters. 467: L6. arXiv:1611.00283. doi:10.1093/mnrasl/slw250