El Punto de Información Mutua (PIM) o Información Mutua Puntual, (IMP) (en inglés, Pointwise mutual information (PMI)),[1] es una medida de asociación utilizada en la teoría y la estadística de la información. En contraste con la información mutua (Mutual Information, MI), que se basa en PIM, esta se refiere a los eventos individuales, mientras que MI se refiere a la media de todos los eventos posibles.
Definición
El PMI de un par de resultados x e y perteneciente a variables discretas aleatorias X e Y, cuantifican la diferencia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo independencia matemática:
La información mutua (MI) de las variables aleatorias X y Y es el valor esperado del PIM sobre todos los resultados posibles (con respeto a la distribución junta )
La medida es simétrica () Puede tomar valores positivos o negativos, pero es cero si X y Y es independiente. Note que incluso aunque PIM puede ser negativo o positivo, su resultado esperado sobre todos los acontecimientos de junta (MI) es positivo. PMI se maximiza cuando X y Y son perfectamente asociados (i.e.), produciendo los siguientes límites:
Finalmente, aumentará si es fijo pero disminuye.
Aquí, un ejemplo para ilustrar:
x
|
y
|
p(x, y)
|
0
|
0
|
0.1
|
0
|
1
|
0.7
|
1
|
0
|
0.15
|
1
|
1
|
0.05
|
Utilizando esta tabla podemos distribuir de manera marginal para conseguir la siguiente tabla adicional para las distribuciones individuales:
p(x)
|
p(y)
|
0
|
0.8
|
0.25
|
1
|
0.2
|
0.75
|
Con este ejemplo, podemos computar cuatro valores para . Utilizando logaritmo base-2:
pmi(x=0;y=0)
|
=
|
−1
|
pmi(x=0;y=1)
|
=
|
0.222392421
|
pmi(x=1;y=0)
|
=
|
1.584962501
|
pmi(x=1;y=1)
|
=
|
−1.584962501
|
(Para referencia, la información mutua entonces sería 0.214170945)
El punto de información mutua tiene muchas relaciones de semejanza con la información mutua. Por ejemplo,
El punto de información mutua puede ser normalizada entre [-1,+1] resultando en -1 (en el límite) para nunca ocurriendo junto, 0 para independencia, y +1 para completo co-ocurrencia.
Como MI PMI sigue la regla de la cadena, es decir,[2]
Esto es fácilmente demostrado por:
Aplicaciones
En lingüística computacional, PMI ha sido usado para encontrar colocaciones y asociaciones entre palabras. Por ejemplo, los conteos de occurrencias y co-ocurrencias de las palabras en un corpus puede ser usado para aproximar las probabilidades y respectivamente. La siguiente tabla muestra pares de palabras y sus conteos de ocurrencias y co-ocurrencias los primeros 50 millones de palabras en la Wikipedia en español (descarga de octubre del 2015) filtrando aquellos pares con 1.000 o más co-ocurrencias. La tabla muestra los pares de palabras con los 10 mayores y 10 menores valores de PMI.
palabra 1 |
palabra 2 |
conteo palabra 1 |
conteo palabra 2 |
conteo de co-ocurrencias |
PMI
|
star |
wars |
1.812 |
1.355 |
1.159 |
10,0691059068
|
lourdes |
cardenal |
2.028 |
2.441 |
1.053 |
9,27196636042
|
bellas |
artes |
1.431 |
4.747 |
1.213 |
9,09699129423
|
península |
ibérica |
5.161 |
2.109 |
1.671 |
8,94585899336
|
nuestra |
señora |
5.060 |
2.785 |
2.101 |
8,91658006959
|
objetos |
astronómicos |
5.811 |
1.350 |
1.168 |
8,91521662327
|
cabe |
destacar |
3.150 |
3.036 |
1.320 |
8,83946942863
|
naciones |
unidas |
4.937 |
3.411 |
2.250 |
8,80694785791
|
mitología |
griega |
2.924 |
2.986 |
1.011 |
8,66383370344
|
el |
de |
1'468.344 |
3'640.703 |
10.187 |
-2,35092918598
|
los |
de |
741.664 |
3'640.703 |
4.483 |
-2,48875491469
|
la |
de |
1'991.883 |
3'640.703 |
11.497 |
-2,53490063915
|
no |
de |
255.963 |
3'640.703 |
1.404 |
-2,58585866663
|
se |
la |
601.953 |
1'991.883 |
1.688 |
-2,65368967007
|
de |
el |
3'640.703 |
1'468,344 |
5.978 |
-2,88395551973
|
a |
y |
837.636 |
1'246.897 |
1.133 |
-2,91434699616
|
a |
el |
837.636 |
1'468.344 |
1.061 |
-3,14348128868
|
que |
de |
996.179 |
3'640.703 |
3.099 |
-3,15299855095
|
de |
a |
3'640.703 |
837.636 |
1.296 |
-3,85145211009
|
Los pares de palabras que son buenos candidatos para ser considerados como colocaciones obtienen valores altos de PMI porque la probabilidad de co-ocurrencia es solamente un poco menor que las probabilidades de ocurrencia de cada una de las palabras. Contrariamente, los pares de palabras cuyas probabilidades de ocurrencia son considerablemente mayores que su probabilidad de co-ocurrencia obtienen valores pequeños de PMI.
Referencias
- ↑ Kenneth Ward Church and Patrick Hanks (March 1990).
- ↑ Paul L. Williams.
- Fano, R M (1961). "Capítulo 2". Transmisión de Información: Una Teoría Estadística de Comunicaciones. MIT Prensa, Cambridge, MA. ISBN 978-0262561693.
Enlaces externos