微分エントロピー(びぶんエントロピー、英: differential entropy)または連続エントロピー(continuous entropy)は情報理論における概念で、シャノン情報量(確率変数が持つ平均的自己情報量(英語版)の尺度)を連続型確率分布にまで拡張するクロード・シャノンの試みに端を発する。情報量の概念を連続量まで真に拡張したものに limiting density of discrete points(英語版)(LDDP)がある。本記事で述べる微分エントロピーは文献でよく目にするものだが、LDDPに制限を加えた特別な場合の一つであり、離散的情報量の持つ基本的な性質のいくつかを失っている。
X {\displaystyle X} を、確率密度関数 f {\displaystyle f} の関数の台が X {\displaystyle {\mathcal {X}}} である確率変数とする。微分エントロピー h ( X ) {\displaystyle h(X)} または h ( f ) {\displaystyle h(f)} は
h ( X ) = − − --> ∫ ∫ --> X f ( x ) log --> f ( x ) d x {\displaystyle h(X)=-\int _{\mathcal {X}}f(x)\log f(x)\,dx}
と定義される[1]:243。
明示的な確率密度関数は持っていないが、明示的な分位点関数(英語版)表示 Q ( p ) {\displaystyle Q(p)} を持っている確率変数(確率分布)に対しては h ( Q ) {\displaystyle h(Q)} を Q ( p ) {\displaystyle Q(p)} の微分として定義できる。つまり、分位点密度関数 Q ′ ( p ) {\displaystyle Q'(p)} により
と定義する[2]:54–59。
離散型の場合と類似して、微分エントロピーの単位は対数の底に依存する(通常は底を2とし、単位はビットとする)。対数の底による違いについては en:logarithmic units を参照。関連した概念である結合、条件付き(英語版)、相対微分エントロピーも同様に定義される。
離散的な場合とは異なり、微分エントロピーには X {\displaystyle X} の計測単位に依存して横ずれが生じる[3]:183-184。例えば、ある量をミリメートルで測ったときの微分エントロピーは、同じ量をメートルで測ったときよりも log(1000) だけ大きな値になる。無次元量の微分エントロピーは、その 1/1000 を計量の基本単位として表示したときの微分エントロピーよりも log(1000) だけ大きな値になる。
確率密度関数は1を超える値をとり得るから、離散的なエントロピーの性質を微分エントロピーにも適用するときは注意を要する。例えば、一様分布 U ( 0 , 1 / 2 ) {\displaystyle {\mathcal {U}}(0,1/2)} は負の微分エントロピー
を持つ。
一方で相互情報量 I ( X ; Y ) {\displaystyle I(X;Y)} は、連続量に対しても2情報の依存度合の尺度として基本的に重要である。この量は実質的に、離散的な X {\displaystyle X} と Y {\displaystyle Y} にそれぞれ「分割(partition)」を施していき、分割幅を限りなく細かくしていったときの極限に相当するからである。 I ( X ; Y ) {\displaystyle I(X;Y)} は X {\displaystyle X} と Y {\displaystyle Y} を線形な位相同型(自身および逆が連続である写像)で変換しても不変である[4]ばかりでなく非線形同型写像による変換の下でも不変である[5]。相互情報量は、空間的に連続的な値を許すような伝送を介する状況下での2情報量の関係を表現することができる。
離散的なエントロピーが持つ性質の微分エントロピーへの拡張については en:limiting density of discrete points を参照。
しかし、微分エントロピーは他のいくつかの望ましい性質を持っていない:
これらの欠点に対応するため微分エントロピーを修正したものが relative information entropy であり、これは不変測度因子を含んでいる。en:limiting density of discrete points を参照。
平均 μ μ --> {\displaystyle \mu } , 分散 σ σ --> 2 {\displaystyle \sigma ^{2}} が固定されたとき、微分エントロピーが最大になるのは分布が正規分布のときである[1]:255。
g ( x ) {\displaystyle g(x)} を平均 μ μ --> {\displaystyle \mu } ・分散 σ σ --> 2 {\displaystyle \sigma ^{2}} の正規分布の確率密度関数とし、 f ( x ) {\displaystyle f(x)} を同一の平均と分散を持つ任意の確率密度関数とする。
2分布間のカルバック・ライブラー情報量
を考える。ここで
である。よって h ( g ) − − --> h ( f ) ≥ ≥ --> 0 {\displaystyle h(g)-h(f)\geq 0\!} 。
X {\displaystyle X} がパラメータ λ λ --> {\displaystyle \lambda } の指数分布に従う、つまり確率密度関数が
であるとする。この微分エントロピーは
ここで、計算の簡易化のため対数の底を e としていることを明示するため、 h ( X ) {\displaystyle h(X)} ではなく h e ( X ) {\displaystyle h_{e}(X)} と書いている。
微分エントロピーは推定量の平均二乗誤差に対する、一つの下限を与える。任意の連続型確率変数 X {\displaystyle X} とその推定統計量 X ^ ^ --> {\displaystyle {\widehat {X}}} に対し、以下が成り立つ[1]:
等号が成立するのは X {\displaystyle X} が正規分布に従い、 X ^ ^ --> {\displaystyle {\widehat {X}}} が X {\displaystyle X} の平均であるとき、かつそのときに限る。
下記の表で、 Γ Γ --> ( x ) = ∫ ∫ --> 0 ∞ ∞ --> e − − --> t t x − − --> 1 d t {\displaystyle \Gamma (x)=\int _{0}^{\infty }e^{-t}t^{x-1}dt} はガンマ関数、 ψ ψ --> ( x ) = d d x ln --> Γ Γ --> ( x ) = Γ Γ --> ′ ( x ) Γ Γ --> ( x ) {\displaystyle \psi (x)={\frac {d}{dx}}\ln \Gamma (x)={\frac {\Gamma '(x)}{\Gamma (x)}}} はディガンマ関数、 B ( p , q ) = Γ Γ --> ( p ) Γ Γ --> ( q ) Γ Γ --> ( p + q ) {\displaystyle B(p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}} はベータ関数、γE は オイラーの定数である[7]:219-230。
これらの多くについては脚注参照[8]:120-122。