カルバック・ライブラー情報量
出典: フリー百科事典『ウィキペディア(Wikipedia)』
カルバック・ライブラー情報量またはカルバック・ライブラー・ダイバージェンス(英: Kullback–Leibler divergence)とは、確率論と情報理論における2つの確率分布(真の確率分布 P と任意の確率分布 Q)の差の尺度である。情報ダイバージェンス(Information divergence)、情報利得(Information gain)、相対エントロピー(Relative entropy)とも呼ばれる。直観的に距離(metric)を表すとされることが多いが、カルバック・ライブラー情報量は対称性がないため、厳密には距離ではない。KLダイバージェンスなどと略記する場合がある。
通常、P はデータ、観測値、正確に計算で求められた確率分布などを表す。一方、Q は理論値、モデル値、P の予測値などを表す。
目次 |
[編集] 定義
離散確率変数の確率分布 P と Q について、P から Q のKLダイバージェンス(あるいは俗にKL距離)は以下のように定義される。
連続確率変数の確率分布 P と Q の場合、積分を用いて以下のように定義される。
ここで、p と q は P と Q の密度を表す。
これらを一般化して、dP = pdμ と dQ = qdμ が集合 X の確率測度であり、測度 μ に関して絶対連続であるとき、P から Q へのカルバック・ライブラー情報量は次のように定義される。
P が Q に関して絶対連続であるとき( が有限であるときの必要条件)、 は Q に関しての P のラドン・ニコディウム導関数であり、式は次のようになる。
- ,
これを P の Q に対する相対エントロピーと呼ぶ。
同様に Q が P に関して絶対連続であるとき
いずれの形式でも、カルバック・ライブラー情報量は補助測度 μ に依存しないことがわかる。
これらの式に出てくる対数の底は、情報の単位をビットとするときは 2 となり、ナットを単位とするときは e を底とする。カルバック・ライブラー情報量に関わる方程式の多くは対数の底が何であろうと無関係である。
[編集] 解説
情報理論におけるクラフト・マクミランの定理によれば、確率集合 X からある値 xi を特定するメッセージを直接復号可能な符号は、X 上で暗黙の確率分布 q(xi) = 2-li(ここで li は xi を符号化したときの長さ、つまりビット数)を表していると見ることができる。従って、KLダイバージェンスは、真の確率分布が P であるような符号に比較して、ある間違った最適化をされた確率分布 Q の符号を使ってメッセージをやりとりするときに余分にかかるメッセージの長さの予測値を表していると見ることができる。
これはカルバック・ライブラー情報量の定義から次のように導かれる。
ここで、H(P,Q) は P と Q のクロスエントロピー、H(P) は P のエントロピーである。
カルバック・ライブラー情報量は常に負でない値となる。
これはギブスの不等式として知られており、DKL(P||Q) がゼロとなるのは P = Q であるときだけである。従って、エントロピー H(P) はクロスエントロピー H(P,Q) の下限値となる。このクロスエントロピーは P ではなく Q に基づく符号を使ったときに予測されるビット数を表している。従って、KLダイバージェンスは、X から x という値を特定する情報を得るために、P という真の分布ではなく Q という確率分布に対応した符号を使ったときに余分にかかると予想されるビット数を表しているのである。
この概念は1951年、ソロモン・カルバックとリチャード・ライブラーが2つの分布の間の directed divergence として用いたのが最初であり、ベクトル解析におけるダイバージェンスとは異なる概念である。これを確率分布空間における距離と呼ぶ場合もあるが、カルバック・ライブラー情報量には対称性がないため、距離と呼ぶのは正しくない。
さらに言えば、DKL(P||Q) は三角不等式を満足しない。
その後、Alfréd Rényi (1961) のころから、これを Q の代わりに P を使えたときの X に関する情報利得とも呼ぶようになった。また、P の代わりに Q を使ったときの相対エントロピーとも呼ばれる。
カルバック・ライブラー情報量は連続分布についても定義されており、パラメータ変換について不変である。従って、情報理論の他の量(自己情報量やエントロピー)よりも基本的であるとも言える。というのも、それらは離散的でない確率については未定義だったり、負になったりすることがあるからである。
[編集] 情報理論における他の量との関係
情報理論の他の様々な量は、カルバック・ライブラー情報量の特殊なケースの応用として解釈できる。
自己情報量は次のように表せる。
これは、i=m の確からしさを表すクロネッカーのデルタから確率分布 P(i) のカルバック・ライブラー情報量である。すなわち、i=m という事実ではなく確率分布 P(i) だけが受信者が利用できる場合に i を特定するのに要する余分なビット数を意味する。
相互情報量は次のように表せる。
これは2つの周辺確率分布の積 P(X)P(Y) から同時分布 P(X,Y) のカルバック・ライブラー情報量である。すなわち、同時分布ではなく個々の周辺分布だけを使った符号で転送されたときに X と Y を特定するのにかかる余分なビット数を表している。また、同時分布 P(X,Y) と X の内容が既知であるとき、Y を特定するのにかかるビット数も表している。
シャノンのエントロピーは次のように表せる。
これは N個の同じ確率のもののうち X を特定するために転送する必要のあるビット数からカルバック・ライブラー情報量を引いたものである。そのカルバック・ライブラー情報量とは、一様分布 PU(X) と真の分布 P(X) に関するものである。すなわち、X を符号化するときに真の分布 P(X)ではなく一様分布 PU(X) を使うことで節約されるビット数を引いているのである。
条件付きエントロピーは次のように表せる。
これは N個の同じ確率のもののうち X を特定するために転送する必要のあるビット数からカルバック・ライブラー情報量を引いたものである。そのカルバック・ライブラー情報量とは、確率分布の積 PU(X) P(Y) と同時分布 P(X,Y) に関するものである。すなわち、X を符号化するときに Y に関する X の条件付き分布 P(X|Y)ではなく一様分布 PU(X) を使うことで節約されるビット数を引いているのである。
[編集] 関連項目
[編集] 参考文献
- Fuglede B, and Topsøe F., 2004, Jensen-Shannon Divergence and Hilbert Space Embedding, IEEE Int Sym Information Theory.
- Kullback, S., and Leibler, R. A., 1951, On information and sufficiency, Annals of Mathematical Statistics 22: 79-86.
- Rubner, Y., Tomasi, C., and Guibas, L. J., 2000. The Earth Mover's distance as a metric for image retrieval. International Journal of Computer Vision, 40(2): 99-121.
- Kullback, S. Information Theory and Statistics. Dover reprint.
- Matlab code for calculating KL divergence