この項目では、情報量(エントロピー)の概念の情報理論 的側面について説明しています。熱力学 的側面については「エントロピー 」をご覧ください。
情報量 (じょうほうりょう)やエントロピー (英 : entropy )は、情報理論 の概念で、あるできごと(事象 )が起きた際、それがどれほど起こりにくいかを表す尺度である。ありふれたできごと(たとえば「風の音」)が起こったことを知ってもそれはたいした「情報 」にはならないが、逆に珍しいできごと(たとえば「曲の演奏」)が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとが本質的にどの程度の情報を持つかの尺度であるとみなすこともできる。
なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ(確率 )だけによって決まる数学的な量でしかなく、個人・社会における有用性とは無関係である。たとえば「自分が宝くじに当たった」と「見知らぬAさんが宝くじに当たった」は、前者の方が有用な情報に見えるが、両者の情報量は全く同じである(宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるため)。
自己情報量(自己エントロピー)と平均情報量(エントロピー)
それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値も情報量と呼ぶ。両者を区別する場合には、前者を自己情報量 (自己エントロピー とも)、後者を平均情報量 (エントロピー とも)と呼ぶ。
自己情報量
事象
E
{\displaystyle E}
が起こる確率 を
P
(
E
)
{\displaystyle P(E)}
とするとき、事象
E
{\displaystyle E}
が起こったことを知らされたとき受け取る自己情報量
I
(
E
)
{\displaystyle I(E)}
は、以下で定義される:
I
(
E
)
=
log
-->
1
P
(
E
)
=
− − -->
log
-->
P
(
E
)
{\displaystyle I(E)=\log {\frac {1}{P(E)}}=-\log P(E)}
確率は
0
≤ ≤ -->
P
(
E
)
≤ ≤ -->
1
{\displaystyle 0\leq P(E)\leq 1}
なので自己情報量
I
(
E
)
{\displaystyle I(E)}
は非負である。また対数の単調増加 性により、起こりにくい事象(=生起確率が低い事象)の情報量ほど値が大きい。
対数 の底 として何を選んでも情報量の値が定数倍変わるだけなので本質的な差はない。慣習的に底に2を選ぶことが多い。底が2の場合、
1
/
2
n
{\displaystyle 1/2^{n}}
の確率で起こる事象の情報量は
n
{\displaystyle n}
である。
直観的意味
整数
u
{\displaystyle u}
に対し、
u
{\displaystyle u}
の対数
log
m
-->
u
{\displaystyle \log _{m}u}
は
m
{\displaystyle m}
進法での
u
{\displaystyle u}
の桁数にほぼ等しい値を表す。したがって、確率
1
/
u
{\displaystyle 1/u}
で起こる事象の情報量は、ほぼ
u
{\displaystyle u}
の桁数になる。
情報量の加法性
情報量は加法性を持つ。すなわち独立 な事象AとBに対し、事象「AもBも起こる」の情報量は、Aの情報量とBの情報量の和である。これは以下で証明される。
I
(
A
,
B
)
=
− − -->
log
-->
P
(
A
,
B
)
=
− − -->
log
-->
(
P
(
A
)
⋅ ⋅ -->
P
(
B
)
)
=
− − -->
(
log
-->
P
(
A
)
+
log
-->
P
(
B
)
)
=
I
(
A
)
+
I
(
B
)
{\displaystyle I(A,B)=-\log P(A,B)=-\log(P(A)\cdot P(B))=-(\log P(A)+\log P(B))=I(A)+I(B)}
例えば、52枚のトランプ から無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義から log 52 であると分かる。ここで、「取り出したカードのスート はハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量は log 4 、後者は log 13 である。この両者の和は log 4 + log 13 = log (4×13) = log 52 となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは「独立した情報の和が、全体の情報量と一致する」という直感的要請に合致する。
導出
情報量に対する直感的要請には「発生確率が低いほど大きく(単調減少性 )」「確率に関して連続的に変化し(連続性 )」「独立同時事象の情報量が周辺事象の情報量和に等しい(加法性 )」の三条件が挙げられる。この3条件を満たす関数はコーシーの函数方程式 を利用することで
C
log
-->
p
{\displaystyle C\log p}
と一意に求まる。よって情報量の定義は上記の3条件から一意に導出できる。典型的には対数の底を2としてp =1/2 で1となるようにCを設定(C=-1 )する。
平均情報量(エントロピー)
(
Ω Ω -->
,
F
,
P
)
{\displaystyle (\Omega ,{\mathcal {F}},P)}
を確率空間 とする。全事象 Ω の分割
A
i
{\displaystyle A_{i}}
が与えられたとき[ 2] 、各事象
A
i
∈ ∈ -->
Ω Ω -->
{\displaystyle A_{i}\in \Omega }
の自己情報量
I
(
A
i
)
{\displaystyle I(A_{i})}
で定義した値
H
(
P
)
=
∑ ∑ -->
A
i
∈ ∈ -->
Ω Ω -->
P
(
A
i
)
I
(
A
i
)
=
− − -->
∑ ∑ -->
A
i
∈ ∈ -->
Ω Ω -->
P
(
A
i
)
log
-->
P
(
A
i
)
{\displaystyle H(P)=\sum _{A_{i}\in \Omega }P(A_{i})\ I(A_{i})=-\sum _{A_{i}\in \Omega }P(A_{i})\log P(A_{i})}
を確率測度 P のエントロピー H (P ) と呼ぶ(平均情報量 、シャノン情報量 、情報論のエントロピー とも)。ただし、ここで
P
(
A
i
)
=
0
{\displaystyle P(A_{i})=0}
のときは、
P
(
A
i
)
log
-->
P
(
A
i
)
=
0
{\displaystyle P(A_{i})\log P(A_{i})=0}
とみなす。これは
lim
p
→ → -->
0
+
p
log
-->
p
=
0
{\displaystyle \lim _{p\to 0+}{p\log p}=0}
であることによる。
また、離散型確率変数 X が確率分布 P に従う場合には、 X のエントロピー H (X ) を自己情報量 I の期待値 によって定義する。すなわち、
H
(
X
)
=
E
P
[
I
(
X
)
]
=
− − -->
∑ ∑ -->
x
∈ ∈ -->
X
f
X
(
x
)
log
-->
f
X
(
x
)
{\displaystyle H(X)=\mathbb {E} _{P}[I(X)]=-\sum _{x\in X}f_{X}(x)\log f_{X}(x)}
である[ 3] 。ここで f X は X の確率質量関数 である[ 4] 。
0
≦ ≦ -->
I
(
⋅ ⋅ -->
)
{\displaystyle 0\leqq I(\cdot )}
より、エントロピーは常に非負である。
確率変数 X と Y の組 (X , Y ) も確率変数とみなせる。この確率変数の値の発生確率すなわち同時確率 を
P
X
,
Y
(
X
,
Y
)
{\displaystyle P_{X,Y}(X,Y)}
とすると、 (X , Y ) のエントロピー
H
(
X
,
Y
)
{\displaystyle H(X,Y)}
は
H
(
X
,
Y
)
=
E
P
X
,
Y
[
I
(
X
,
Y
)
]
=
− − -->
∑ ∑ -->
(
x
,
y
)
∈ ∈ -->
(
X
,
Y
)
P
X
,
Y
(
x
,
y
)
log
-->
P
X
,
Y
(
x
,
y
)
{\displaystyle H(X,Y)=\mathbb {E} _{P_{X,Y}}[I(X,Y)]=-\sum _{(x,y)\in (X,Y)}P_{X,Y}(x,y)\log P_{X,Y}(x,y)}
になる。これを結合エントロピー と呼ぶ。
(X , Y ) が互いに独立 な確率変数である場合には、
H
(
X
,
Y
)
{\displaystyle H(X,Y)}
は
H
(
X
)
+
H
(
Y
)
{\displaystyle H(X)+H(Y)}
に一致する。すなわち、全体の情報量
H
(
X
,
Y
)
{\displaystyle H(X,Y)}
は、それぞれの確率変数の情報量の和である。
しかし、 X と Y が互いに独立ではない場合は、
H
(
X
,
Y
)
{\displaystyle H(X,Y)}
と
H
(
X
)
+
H
(
Y
)
{\displaystyle H(X)+H(Y)}
は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量 と呼び、
I
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
− − -->
H
(
X
,
Y
)
{\displaystyle I(X,Y)=H(X)+H(Y)-H(X,Y)}
で表す。相互情報量は常に非負の値になる。
事象B が生じているという条件下における事象A の条件付き情報量 を
− − -->
log
-->
Pr
(
A
∣ ∣ -->
B
)
{\displaystyle -\log \Pr(A\mid B)}
によって定める。確率変数 X が与えられたとき、事象「
X
=
x
{\displaystyle X=x}
」の条件付き情報量
− − -->
log
-->
Pr
(
X
=
x
∣ ∣ -->
B
)
{\displaystyle -\log \Pr(X=x\mid B)}
の x に関する加重平均を条件付きエントロピー と言い、
H
(
X
∣ ∣ -->
B
)
=
E
P
X
∣ ∣ -->
B
[
I
(
X
∣ ∣ -->
B
)
]
=
− − -->
∑ ∑ -->
x
∈ ∈ -->
X
Pr
(
X
=
x
∣ ∣ -->
B
)
log
-->
Pr
(
X
=
x
∣ ∣ -->
B
)
{\displaystyle H(X\mid B)=\mathbb {E} _{P_{X\mid B}}[I(X\mid B)]=-\sum _{x\in X}\Pr(X=x\mid B)\log \Pr(X=x\mid B)}
で表す。
さらに確率変数 Y が与えられたとき、事象「
Y
=
y
{\displaystyle Y=y}
」が生じているという条件下における条件付きエントロピー
H
(
X
∣ ∣ -->
Y
=
y
)
{\displaystyle H(X\mid Y=y)}
の y に関する加重平均
H
(
X
∣ ∣ -->
Y
)
=
∑ ∑ -->
y
∈ ∈ -->
Y
Pr
(
Y
=
y
)
H
(
X
∣ ∣ -->
Y
=
y
)
=
− − -->
∑ ∑ -->
x
∈ ∈ -->
X
,
y
∈ ∈ -->
Y
Pr
(
X
=
x
,
Y
=
y
)
log
-->
Pr
(
X
=
x
∣ ∣ -->
Y
=
y
)
{\displaystyle H(X\mid Y)=\sum _{y\in Y}\Pr(Y=y)H(X\mid Y=y)=-\sum _{x\in X,y\in Y}\Pr(X=x,Y=y)\log {\Pr(X=x\mid Y=y)}}
も、やはり条件付きエントロピー と呼ぶ。
エントロピーの基本的性質
情報量は確率だけによって決まる。
情報量は非負の値または無限大を取る。
nビットのビット列の空間(情報源 )から(一様ランダムとは限らない方法で)ランダムにビット列を選んだときのエントロピーは、n以下になる。エントロピーがnになる必要十分条件は、ビット列が一様ランダムに選ばれることである。
確率変数XとYが独立である必要十分条件は、
H
(
X
)
+
H
(
Y
)
=
H
(
X
,
Y
)
{\displaystyle H(X)+H(Y)=H(X,Y)}
が成立することである。
コイン投げの例
あるコインを投げたときに表が出る確率を
p
{\displaystyle p}
、裏が出る確率を
1
− − -->
p
{\displaystyle 1-p}
とする。このコインを投げたときに得られる平均情報量(エントロピー)は、
H
(
X
)
=
− − -->
p
log
-->
p
− − -->
(
1
− − -->
p
)
log
-->
(
1
− − -->
p
)
{\displaystyle H(X)=-p\log {p}-(1-p)\log {(1-p)}}
である。
この関数
f
(
p
)
=
− − -->
p
log
-->
p
− − -->
(
1
− − -->
p
)
log
-->
(
1
− − -->
p
)
{\displaystyle f(p)=-p\log {p}-(1-p)\log {(1-p)}}
をエントロピー関数 と呼ぶ。
図を見ると分かるように、
p
=
0
{\displaystyle p=0}
と
p
=
1
{\displaystyle p=1}
では H はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。 H が最大になるのは
p
=
1
/
2
{\displaystyle p=1/2}
のときであり、一般にすべての事象(できごと)が等確率になるときにエントロピーが最大になる。
連続系のエントロピー
実数値を取る確率変数X の確率密度関数をp (x )とするとき、X のエントロピーを
h
(
X
)
=
− − -->
∫ ∫ -->
− − -->
∞ ∞ -->
∞ ∞ -->
p
(
x
)
log
-->
p
(
x
)
d
x
{\displaystyle h(X)=-\int _{-\infty }^{\infty }p(x)\log p(x)dx}
によって定義する。
X が有限集合に値を取る確率変数である場合には、X のシャノン情報量
H
(
X
)
{\displaystyle H(X)}
も定義できる。X がn 通りの値を取るとき、
H
(
X
)
{\displaystyle H(X)}
と
h
(
X
)
{\displaystyle h(X)}
は、
h
(
X
)
=
H
(
U
n
)
− − -->
H
(
X
)
{\displaystyle h(X)=H(U_{n})-H(X)}
を満たす。
ただし、ここで
U
n
{\displaystyle U_{n}}
はn 元集合上の一様分布とする(すなわち
H
(
U
n
)
=
log
-->
n
{\displaystyle H(U_{n})=\log n}
)。
Renyiエントロピー
Ω Ω -->
{\displaystyle \Omega }
を、台が有限集合である確率空間とする。P を
Ω Ω -->
{\displaystyle \Omega }
上の確率分布とし、
α α -->
{\displaystyle \alpha }
を非負の実数とする。
α α -->
≠ ≠ -->
1
{\displaystyle \alpha \neq 1}
のとき、P のdegee
α α -->
{\displaystyle \alpha }
のRenyiエントロピー を
H
α α -->
(
P
)
=
log
-->
(
∑ ∑ -->
A
∈ ∈ -->
Ω Ω -->
P
(
A
)
α α -->
)
1
− − -->
α α -->
{\displaystyle H_{\alpha }(P)={\frac {\log(\sum _{A\in \Omega }P(A)^{\alpha })}{1-\alpha }}}
によって定義する。
また、
α α -->
=
1
,
∞ ∞ -->
{\displaystyle \alpha =1,\infty }
の場合には、Renyiエントロピーを
{
H
1
(
P
)
=
lim
α α -->
→ → -->
1
H
α α -->
(
P
)
H
∞ ∞ -->
(
P
)
=
lim
α α -->
→ → -->
∞ ∞ -->
H
α α -->
(
P
)
{\displaystyle \left\{{\begin{array}{lll}H_{1}(P)&=\lim _{\alpha \to 1}&H_{\alpha }(P)\\H_{\infty }(P)&=\lim _{\alpha \to \infty }&H_{\alpha }(P)\end{array}}\right.}
によって定義する。
単にRenyiエントロピー と言った場合は
H
2
(
P
)
{\displaystyle H_{2}(P)}
を意味することも多い。
さらに、確率変数X が確率分布P に従うとき、
H
α α -->
(
X
)
{\displaystyle H_{\alpha }(X)}
を
H
α α -->
(
X
)
=
H
α α -->
(
P
)
{\displaystyle H_{\alpha }(X)=H_{\alpha }(P)}
によって定義する。
Renyiエントロピーは以下の性質を満たす:
H
0
(
P
)
=
log
-->
# # -->
Ω Ω -->
{\displaystyle H_{0}(P)=\log \#\Omega }
が成立する。
H
1
(
P
)
{\displaystyle H_{1}(P)}
はシャノン情報量
H
(
P
)
=
− − -->
∑ ∑ -->
A
∈ ∈ -->
Ω Ω -->
P
(
A
)
log
-->
P
(
A
)
{\displaystyle H(P)=-\sum _{A\in \Omega }P(A)\log P(A)}
と一致する。
α α -->
{\displaystyle \alpha }
が2以上の整数の場合には、
H
α α -->
(
P
)
=
1
1
− − -->
α α -->
log
-->
Pr
(
X
1
=
⋯ ⋯ -->
=
X
α α -->
)
{\displaystyle H_{\alpha }(P)={\frac {1}{1-\alpha }}\log \Pr(X_{1}=\cdots =X_{\alpha })}
が成立する。ここで、
X
1
,
… … -->
,
X
α α -->
{\displaystyle X_{1},\ldots ,X_{\alpha }}
は確率分布
P
{\displaystyle P}
に従う独立同一分布であって、
Pr
(
X
1
=
⋯ ⋯ -->
=
X
α α -->
)
{\displaystyle \Pr(X_{1}=\cdots =X_{\alpha })}
は
x
1
,
… … -->
,
x
α α -->
{\displaystyle x_{1},\ldots ,x_{\alpha }}
をそれぞれ
X
1
,
… … -->
,
X
α α -->
{\displaystyle X_{1},\ldots ,X_{\alpha }}
に従って選んだときに
x
1
=
⋯ ⋯ -->
=
x
α α -->
{\displaystyle x_{1}=\cdots =x_{\alpha }}
が成立する確率とする。
H
∞ ∞ -->
(
P
)
=
min
A
∈ ∈ -->
Ω Ω -->
{
− − -->
log
-->
P
(
A
)
}
{\displaystyle H_{\infty }(P)=\min _{A\in \Omega }\{-\log P(A)\}}
が成立する。この
H
∞ ∞ -->
(
P
)
{\displaystyle H_{\infty }(P)}
をminエントロピー ともいう。
歴史
「エントロピー」の概念は1865年 にルドルフ・クラウジウス がギリシャ語の「変換」を意味する言葉を語源 として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年 にはレオ・シラード が、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット(1 シャノン)と呼ぶ量が統計力学で k ln 2 に対応するという関係を導いていた[ 5] 。
現在の情報理論におけるエントロピーの直接の導入は1948年 のクロード・シャノン によるもので、その論文『通信の数学的理論 』でエントロピーの概念を情報理論に応用した。シャノン自身は熱統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達したが、その名称を考えていたとき同僚フォン・ノイマン が、熱統計力学のエントロピーに似ていることから示唆したもので、フォン・ノイマンは「統計エントロピーが何なのかを理解してる人は少ないから、議論になったら有利であろう」と語ったとされる[ 7] [ 8] 。しかしシャノンはフォン・ノイマンとの会話は認めつつその影響を否定している[ 9] 。
なお、シャノン以前にもラルフ・ハートレー が1928年 に、集合A に対して
log
-->
# # -->
A
{\displaystyle \log \#A}
という量を考察している(“
# # -->
A
{\displaystyle \#A}
”はA の元数 )。
log
-->
# # -->
A
{\displaystyle \log \#A}
はA 上の一様分布のエントロピーに一致する。現在では、
log
-->
# # -->
A
{\displaystyle \log \#A}
をA のハートレー・エントロピー と呼ぶ[ 10] 。
単位
情報量は本来無次元 の量である。しかし、対数の底として何を用いたかによって値が異なるので,単位を付けて区別している。前述のように、情報量は確率の逆数の桁数 の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e 、10を選んだときの情報量の単位は、それぞれビット (bit)、ナット (nat)、ディット (dit)である。
また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997(これは国際規格 ISO /IEC 2382-16:1996と一致している)は、これらの量を表す単位を別に定めている。
対数の底と単位
底
通常の単位
JISおよびISOが定めた単位
備考
2
ビット (bit)
シャノン (shannon)
lb, 二進対数
e =2.718…
ナット (nat)
ナット (nat)
ln, 自然対数
10
ディット (dit)
ハートレー (hartley)
lg, 常用対数
単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノン 、ラルフ・ハートレー にちなむ。
脚注
^ Gray, Robert M. (2013-03-14) (英語). Entropy and Information Theory . Springer Science & Business Media. ISBN 978-1-4757-3982-4 . https://books.google.co.jp/books?id=ZoTSBwAAQBAJ&pg=PA23&q=entropy+as+a+function+of+the+partition
^ この分割は離散型確率変数の確率質量関数から誘導されることもある[ 1] 。
^ Cover, Thomas M.; Thomas, Joy A. (2012-11-28) (英語). Elements of Information Theory . John Wiley & Sons. ISBN 978-1-118-58577-1 . https://books.google.co.jp/books?id=VWq5GG6ycxMC&pg=PA14
^ f X (x ) を
P
X
(
x
)
=
P
(
X
=
x
)
=
P
(
{
ω ω -->
∈ ∈ -->
Ω Ω -->
∣ ∣ -->
X
(
ω ω -->
)
=
x
}
)
{\displaystyle P_{X}(x)=P(X=x)=P(\{\omega \in \Omega \mid X(\omega )=x\})}
と書くこともある。
^ Szilard, L. (1929) "Über die Entropieverminderung in einem Thermodynamischen System bei Eingriffen Intelligenter Wesen", Zeitschrift für Physik 53 :840–856
^ 『ファインマン計算機科学』 p. 96 ファインマンによる脚注*8で、「言い伝えによれば」と断りのうえでこの説を紹介している。
^ 韓太舜、小林欣吾『情報と符号の数理』
^ CLAUDE E. SHANNON: An Interview Conducted by Robert Price, 28 July 1982
^ なお、JIS X 0016:1997 で定義される選択情報量(decision content)も同じ定義である。「互いに排反な事象から成る有限集合中の事象の数の対数。」
参考文献
関連項目
外部リンク