最大エントロピー原理

出典: フリー百科事典『ウィキペディア（Wikipedia）』

最大エントロピー原理（英: Principle of maximum entropy）とは、認識確率分布を一意に定めるために利用可能な情報を分析する手法である。

情報理論の父と呼ばれるクロード・シャノンは、確率分布 H(p) = −∑ p_i log p_i をエントロピーと呼んだ。最大エントロピー原理ではこれを尺度として確率分布をランク分けする。すなわち、情報の符号化に最も偏向の少ない分布を用いることでシャノンのエントロピー H(p) が最大化され、情報の一貫性も保たれる。

この原理を最初に提唱したのは E.T. Jaynes である。彼は1957年に統計力学のギブズ分布を持ち込んだ熱力学（en:Maximum entropy thermodynamics）を提唱した際に、この原理も提唱したものである。彼は、熱力学やエントロピーは、情報理論や推定の汎用ツールの応用例と見るべきだと示唆した。

他のベイズ的手法と同様、最大エントロピー原理でも事前確率を明示的に利用する。これは古典的統計学における推定手法の代替である。

1 検証可能な情報
2 線形の制約下での最大エントロピー分布の一般的解法
- 2.1 離散の場合
- 2.2 連続の場合
3 最大エントロピー原理の正当化
- 3.1 非情報性（uninformativeness）の尺度としての情報エントロピー
- 3.2 Wallis の導出
4 関連項目
5 参考文献
6 外部リンク

[編集] 検証可能な情報

最大エントロピー原理は「検証可能な情報」に適用したときのみ有効である。ある情報が検証可能かどうかは、その分布が情報自体と一貫しているかどうかで決まる。例えば、次のような文は検証可能な情報である。

変数 x の期待値は 2.87 である。

p₂ + p₃ > 0.9

検証可能な情報について、最大エントロピー原理の手法では、情報の一貫性を保ちつつ、情報エントロピーを最大化させる確率分布を探す。このような制限つき最適化問題は一般にラグランジュの未定乗数法で解くことが出来る。

検証可能でない情報についてのエントロピーの最大化では「確率の総和は1でなければならない」という制限しかない。この場合、最大エントロピーの確率分布は一様分布となる。

$p_i=\frac{1}{n}\ {\rm for\ all}\ i\in\{\,1,\dots,n\,\}.$

したがって、最大エントロピー原理は古典的な不偏の原理を一般化したものと見ることもできる。

[編集] 線形の制約下での最大エントロピー分布の一般的解法

[編集] 離散の場合

x ∈ {x₁, x₂,..., x_n} に関する検証可能な情報 I があるとする。この情報を関数 f_k の期待値に関する m 個の制約として表現する。つまり、認識確率分布は次の式を満足しなければならない。

$\sum_{i=1}^n \Pr(x_i|I)f_k(x_i) = F_k \qquad k = 1, \cdots,m$

さらに、確率の総和は 1 でなければならないという制約もある。

$\sum_{i=1}^n \Pr(x_i|I) = 1$

これらの制約を満足する最大情報エントロピーの確率分布は次のようになる。

$\Pr(x_i|I) = \frac{1}{Z(\lambda_1,\cdots, \lambda_m)} \exp\left[\lambda_1 f_1(x_i) + \cdots + \lambda_m f_m(x_i)\right]$

正規化定数は次の式で求められる。

$Z(\lambda_1,\cdots, \lambda_m) = \sum_{i=1}^n \exp\left[\lambda_1 f_1(x_i) + \cdots + \lambda_m f_m(x_i)\right]$

λ_k パラメータはラグランジュ乗数であり、それらの値は以下の制約から決定される。

$F_k = \frac{\partial}{\partial \lambda_k} \log Z(\lambda_1,\cdots, \lambda_m)$

この m個の方程式は一般に解析的に解くことができないので、数値解析で解くのが普通である。

[編集] 連続の場合

連続分布でも、シャノンのエントロピーの単純な定義は有効である（差分エントロピー）。しかし、それよりも有効なのが分布に関する相対エントロピーである（E.T. Jaynes、1963、1968、2003）。

$H_c=-\int p(x)\log\frac{p(x)}{m(x)}\,dx$

ここで m(x) はJaynes が「不変測度; invariant measure」と呼んだ値であり、離散点の制限密度に比例する。ここではその値は既知であると仮定し、解となる方程式が得られてから、再びそれについて検討する。

相対エントロピーは p から m のカルバック・ライブラー情報量として定義されるのが一般的である（時にその符号を反転させた値を間違って使う場合もある）。カルバックによれば、この値を最小化させる推定原理を「最小判別情報の原理; Principle of Minimum Discrimination Information」と呼ぶ。

実数のある区間にある量 x に関する検証可能な情報 I があるとする（以下、積分区間はすべてこの区間である）。この情報を関数 f_k の期待値についての m 個の制約として表現する。すなわち、認識確率密度関数は次の条件を満たす必要がある。

$\int p(x|I)f_k(x)dx = F_k \qquad k = 1, \cdots,m$

そしてもちろん、確率密度を積分した結果は 1 となるという制約もある。

$\int p(x|I)dx = 1$

これらの制約を満たし、最大の H_c を伴う確率密度関数は次の通りである。

$p(x|I) = \frac{1}{Z(\lambda_1,\cdots, \lambda_m)} m(x)\exp\left[\lambda_1 f_1(x) + \cdots + \lambda_m f_m(x)\right]$

正規化定数は次の式で決定される。

$Z(\lambda_1,\cdots, \lambda_m) = \int m(x)\exp\left[\lambda_1 f_1(x) + \cdots + \lambda_m f_m(x)\right]dx$

離散の場合と同様、λ_k パラメータ群の値は以下の制約から求められる。

$F_k = \frac{\partial}{\partial \lambda_k} \log Z(\lambda_1,\cdots, \lambda_m)$

不変測度関数 m(x) は、x が区間 (a, b) の値だけを取ることだけがわかっていて、他の情報は何も与えられない。従って最大エントロピーの確率密度関数は次のようになる。

$p(x|I) = A \cdot m(x), \qquad a < x < b$

ここで A は正規化定数である。不変測度関数は実際には「関連情報の不足」を符号化した事前密度関数である。それは最大エントロピー原理では決定できず、何らかの他の論理的手法で決定しなければならない。例えば「変換群の原理; principle of transformation groups」や条件付き確率などの手法がある。

[編集] 最大エントロピー原理の正当化

最大エントロピー原理の信奉者は、以下に示す2つの例も含め、認識確率の割り当てにこの原理を利用することを正当化する。以下では、認識確率が自明のものとして利用しており、認識確率の概念自体が問題とされる場合には何の答えにもならない。

[編集] 非情報性（uninformativeness）の尺度としての情報エントロピー

m 個の相互に排他的な命題の間における「離散認識確率分布; discrete epistemic probability distribution」を考える。命題群のうちの1つが真であるとわかっている場合に、最も情報量の多い分布が得られる。その場合、情報エントロピーはゼロになる。また、どの命題も同等の尤もらしさであった場合に、最も情報量の少ない分布が得られる。その場合、確率分布は一様分布となり、情報エントロピーは最大値 log m となる。つまり、情報エントロピーはある確率分布がどれだけ非情報的（uninformative）かを示す数値尺度と見ることができ、ゼロ（完全情報的）から log m（完全非情報的）までの値をとる。

この考え方からいけば、最大エントロピーの分布を選ぶということは、可能な限り最も非情報的な分布を選んでいることに他ならない。エントロピーのより小さい分布を選ぶことは、所有していない情報を仮定することになる。エントロピーのより大きな分布を選ぶことは、所有する情報による制約条件に違反することになる。従って、最大エントロピー原理による分布の選択は唯一の尤もらしい分布を選んでいることになるのである。

[編集] Wallis の導出

以下の主張は1962年に Graham Wallis が E.T. Jaynes に示唆したことから導き出された（Jaynes, 2003）。基本的に統計力学におけるマクスウェル分布と同様の数学的手法であるが、概念的な意味は全く異なる。それは、「不確実性」や「非情報性」といった不明確な概念の尺度としての情報エントロピーを全く使わず、厳密な組合せで構成されているという利点がある。情報エントロピー関数は所与のものとはされていないが、主張の過程で出てくる。この主張はごく自然に情報エントロピーを最大にする手続きを踏む。

ある人物が m 個の相互排他的命題について認識確率を割り当てたいと考えているとする。彼女はいくつかの検証可能な情報を持っているが、その情報を確率の割り当てにどのように適用すべきかわからない。そこで彼女は次のような無作為実験を考案した。彼女は全認識確率の総和を N 個に分割し（個々は 1/N）、それらを無作為の m 個の可能性に割り当てる。N 個のボールを m 個のカゴに向かって投げる様子を想像していただきたい。公平性を確保するため、ボールは1個づつ投じ、カゴのサイズは同じとする。この実験の結果得られた確率の割り当てと、持っている情報との整合性を確認する。もし整合していない場合、再度同じ実験を行う。整合した場合、その割り当ては次のようになる。

$p_i = \frac{n_i}{N}$

ここで、n_i は i 番目の位置に割り当てられたボールの個数である。

認識確率割り当ての細粒性を確保するため、N を非常に大きな値とする必要がある。このような実験を実際に繰り返し行うのではなく、計算によって最も尤もらしい結果を求めるとする。特定の結果の確率は多項分布に従う。

$Pr(\mathbf{p}) = W \cdot m^{-N}$

ここで W は次の式で表される。

$W = \frac{N!}{n_1 !n_2 !...n_m!}$

これを「結果の多様性; multiplicity of the outcome」とも呼ぶ。

最も尤もらしい結果は、多様性 W が最大となる結果である。W を直接最大化させるのではなく、ここでは W の単調増加関数を最大化させる。ここでは次の式を最大化させる。

$\begin{matrix}\frac{1}{N}\log W &=& \frac{1}{N}\log \frac{N!}{n_1 !n_2 !...n_m!}\qquad\qquad\qquad\qquad\qquad \\ \\ \ &=& \frac{1}{N}\log \frac{N!}{Np_1 !Np_2 !...Np_m!} \qquad\qquad\qquad\qquad\\ \\ \ &=& \frac{1}{N}\left( \log N! - \sum_{i=1}^m \log Np_i! \right) \qquad\qquad\end{matrix}$

ここで、式を単純化するため、N → ∞ の極限をとる。すなわち、認識確率を離散値から連続値に移行させる。スターリングの近似を使うと、次のようになる。

$\begin{matrix}\lim_{N \to \infty}\left(\frac{1}{N}\log W\right) &=& \frac{1}{N}\left( N\log N - \sum_{i=1}^m Np_i\log Np_i \right)\qquad\qquad\qquad\qquad \\ \\ \ &=& \log N - \sum_{i=1}^m p_i\log Np_i \qquad\qquad\qquad\qquad\qquad\qquad \\ \\ \ &=& \log N - \log N \sum_{i=1}^m p_i - \sum_{i=1}^m p_i\log p_i \qquad\qquad\qquad \\ \\ \ &=& \left(1 - \sum_{i=1}^m p_i \right)\log N - \sum_{i=1}^m p_i\log p_i \qquad\qquad\qquad \\ \\ \ &=& - \sum_{i=1}^m p_i\log p_i \qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad \\ \\ \ &=& H(\mathbf{p}) \qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad \end{matrix}$

最終的に、手持ちの検証可能な情報を制約としてエントロピーを最大化する作業が残る。確率レベルを離散的なものから連続的なものにする極限において、最大エントロピー分布が全ての「公正な」無作為の認識分布の中で最も起こりうるという結論に達する。

[編集] 関連項目

ロジスティック回帰

[編集] 参考文献

Jaynes, E. T., 1963, 'Information Theory and Statistical Mechanics', in Statistical Physics, K. Ford (ed.), Benjamin, New York, p. 181.
Jaynes, E. T., 1968, 'Prior Probabilities', IEEE Trans. on Systems Science and Cybernetics, SSC-4, 227.
Jaynes, E. T., 2003, Probability Theory: The Logic of Science, Cambridge University Press.
Guiasu, S. and Shenitzer, A., 1985, 'The principle of maximum entropy', The Mathematical Intelligencer, 7(1).
Kapur, J. N.; and Kesevan, H. K., 1992, Entropy optimization principles with applications, Boston: Academic Press. ISBN 0-12-397670-7
Uffink, Jos, 1995, 'Can the Maximum Entropy Principle be explained as a consistency requirement?', Studies in History and Philosophy of Modern Physics 26B, 223-261.

[編集] 外部リンク

Ratnaparkhi A. "A simple introduction to maximum entropy models for natural language processing" Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997. [1]

自然言語処理における最大エントロピー法の簡単な解説:

Maximum Entropy Modeling

最大エントロピーモデルに関する論文やソフトウェア実装に関するリンク集がある

カテゴリ: 情報理論 | 人工知能 | ベイズ統計

See also ebooksgratis.com: no banners, no cookies, totally FREE.