情報理論はその名の通り、情報の数量的構造を論ずる学問である。情報を学問として扱うためには、それを量として表すことができる指標を定義する必要がある。この記事では、情報を量的に扱うための指標である情報量について、それが満足すべき特徴から定義を導出し、さらに、それを一般的な状況に適用するためのエントロピーという指標についても定義する。
情報量
考慮すべき特徴
情報を数量的に扱うためには「情報の量」を定義する必要があり、その定義には、一般的に理解されているような情報の性質が組み込まれなければならない。
具体的に議論を進めるために、以下のような状況を設定する。
東地区 | 西地区 | |
北通り | A | D |
中通り | B | E |
南通り | C | F |
とある市の美術館で絵の盗難事件が起き、犯人である怪盗Xは現在、この市のどこかに潜伏していることがわかっている。この市は東と西の2つの地区に分けられ、それぞれの地区には北・中・南の通りが存在する。つまり、この市には上の表のA~Fまでの6つの地域があるのだが、怪盗Xはこのうちのどこかに潜伏している。
この後、この市の警察署にさまざまな情報が寄せられ、それらを考慮した結果、怪盗Xの逮捕に至るのであるが、寄せられたそれぞれの情報には有効性に違いがある。この「有効性」のことを情報量と呼ばれる指標で表現することにしよう。
もし、この市が6つではなく60の地域に分けられていた場合、それらのうち1つに怪盗Xがいることを特定できる情報の価値は、6つの地域から1つを特定する場合よりも大きくなるだろう。よって、 \(n\) 個のものから1つを特定するときの情報量を \(f(n)\) と書くことにする(情報量は \(n\) の関数であり、 \(n\) が増えるほど大きくなる)。
ところで、今回の逮捕の決め手になったのは次の2つの情報であった。
- \(\alpha\) :「怪盗Xは東地区にいる」
- \(\beta\) :「怪盗Xは中通りにいる」
これらの情報を組み合わせた結果、怪盗XがBの地域にいることが確定した。さて、先程の議論によれば、 \(\alpha\) の情報は2つの地区から1つ、 \(\beta\) の情報は3つの通りから1つを特定したのであるから、それぞれの情報量は \(f(2),f(3)\) と書ける。そして、これらの情報を合わせたことにより6つの地域から1つを特定できたのであるから、以下の関係式が成り立つはずである。
$$f(6)=f(2)+f(3)$$
これを一般化すると、情報量 \(f(n)\) は
$$f(mn)=f(m)+f(n) \tag{1}$$
という性質を持つ。
定義
上記の特徴を考慮すると、情報量の定義は自然に定めることができる。
\((1)\) 式より
$$f(x+\epsilon x)=f((1+\epsilon)x)=f(1+\epsilon)+f(x)$$
が成り立つ。これを変形すると
$$\frac{f(x+\epsilon)-f(x)}{\epsilon x}=\frac{1}{x}\frac{f(1+\epsilon)}{\epsilon}$$
となり、 \(\epsilon\to 0\) の極限を取ると、左辺は明らかに導関数 \(f'(x)\) となる。右辺の極限値を
$$\lim_{\epsilon\to 0}\frac{f(1+\epsilon)}{\epsilon}=c$$
と定めると
$$f'(x)=\frac{c}{x}$$
となる。すなわち
$$f(x)=\int f'(x)dx=c\log_{e}x+d$$
である。ここで、 \(d\) は積分定数である。この値は、 \(f(1)=0\) であることを考慮すると
$$f(1)=c\log_{e}1+d=d=0$$
より、0となることがわかる。
さて、次は \(c\) の値であるが、これは情報の基本単位をどのように定めるかによって変化しうる。最も一般的な決定方法としては、2つのものから1つを選ぶ「2者択一」の情報量を1と定める、すなわち、 \(f(2)=1\) として \(c\) を計算する。このとき、 \(c=\log_{2}e\) となるため、情報量は
$$f(x)=\log_{2}e\cdot\log_{e}x$$
$$=\log_{2}e\frac{\log_{2}x}{\log_{2}e}=\log_{2}x$$
と表せる。その他の方法としては、 \(f(x)\) の対数の底が \(10\) 、または自然対数 \(e\) となるように \(c\) を定めることが考えられる。 \(f(x)=\log_{2}x\) となるように定めた「2者択一」の情報量の単位をビットというのに対し、 \(f(x)=\log_{10}x\) となるように定めたときの単位をディットといい、実際に情報量の計算を行う際に便利な定め方である。また、 \(f(x)=\log_{e}x\) となるように定めたときの単位をニットといい、こちらは理論計算を行う際に便利である。このように、用途によって対数の底を定めることができるが、これは情報量を測る単位を変えたに過ぎないので、本質的には同じものである。なお、この記事で今後特に記載のない場合は、情報量の単位にビット(底に \(2\) )を用いることにする。
ここで再び怪盗Xの例に戻り、より一般化した状況を考えてみよう。すなわち、とある市は \(k\) 個の地区 \(K_1, K_2, \cdots, K_k\) に分けられ、それぞれが \(l\) 本の通り \(L_1, L_2, \cdots, L_l\) を持ち、全体として \(n=kl\) 個の地域が存在する状況を考える。このとき、怪盗Xが潜伏している確率がすべての地域において等しいとすると、怪盗Xが特定の地区 \(K_i\) にいる確率 \(p(K_i)\) は
$$p(K_i)=\frac{l}{n}$$
と表せる。この、地区を特定する情報の情報量を \(I\) とすると、この情報にあと「 \(l\) 本の通りから1つを特定する」情報量が加わると、「 \(n\) 個の地域から1つを特定する」ことができるので、以下の式が成り立つ。
$$\log n=I+\log l$$
これを変形して
$$I=\log n - \log l=\log\frac{n}{l}=-\log\frac{l}{n}=-\log p(K_i)$$
より、確率 \(p\) で生じる現象を特定する情報量は
$$-\log p$$
で表せることがわかる。以上をまとめると次の情報量の定義が成り立つ。
確率 \(p\) の事象が実際に生起したことを知らせる情報に含まれている情報量を
$$-\log_{2}p ビット$$と定義する。
すなわち、とある現象が起こりにくいと強く信じられているほど、それが実際に起こったと知らされた時の情報量は大きくなる。情報量を「驚きの程度」と捉えれば、これは日常的な感覚に即した定義である。
エントロピー
概念
これまで怪盗Xの例に登場してきた情報は、すべて「完全に正確な」情報であった。すなわち、「東地区にいる」という情報が寄せられた場合、怪盗Xは必ず東地区にいたのであるが、現実的には早とちりや曖昧な情報が含まれ、情報から直接居場所を特定できることは少ない。
そして、そのような状況設定のもとで定義された情報量 \(-\log p\) は、確率 \(p\) で起きる現象が実際に起こったときの情報量のことであって、「確率 \(p\) で起きる現象が起こる(だろう)」という情報そのものの情報量を表しているのではない。そのため、こうした情報そのものの情報量を考える際には、エントロピーという新たな指標を導入しなければならない。
定義
エントロピーを定義するために、 \(n\) 個の事象 \(A_1,A_2,\cdots,A_n\) が、それぞれ \(p_1,p_2,\cdots,p_n\) の確率で生じる状況を考える。このとき
$$\sum_{i=1}^{n}p_i=1$$
である。ここで、もし \(A_1\) が生じたとすると、そのことを確認したことで得られる情報量は \(-\log p_1\) である。同様に、 \(A_2\) が生じたときは \(-\log p_2\) 、 \(A_i\) が生じたときは \(-\log p_i\) の情報量が得られる。したがって、この状況下で得られる情報量の期待値は、現象ごとに得られる情報量にその確率をかけたものの総和として求められ
$$-\sum_{i=1}^{n}p_i\log p_i$$
と書ける。この期待値のことをエントロピーと定義する。
\(n\) 個の事象 \(A_1,A_2,\cdots,A_n\) が、それぞれ \(p_1,p_2,\cdots,p_n\) の確率で生じる状況におけるエントロピー \(H\) を
$$H(p_1,p_2,\cdots,p_n)=-\sum_{i=1}^{n}p_i\log p_i$$と定義する。
エントロピーは一般に、「不確定さの度合い」として考えることができる。すなわち、 \(n\) 個の事象のうち、どれが起こるか全く予想がつかない場合では、どの現象が生じてもかなり驚きがある(得られる情報量の期待値が高い)と考えられるのに対し、起こる現象に大体目星がついている状態では、およそ予想通りの現象がおこるため驚きも少ないだろうということである。
性質
不確定さの度合いを表すエントロピーには、以下のような性質がある。
その1
エントロピー \(H\) は非負
$$H \geq 0$$であり、
$$H=0$$が成立するのは、どれか1つの \(p_i\) が \(1\) であり、その他はすべて \(0\) のときに限られる。
<証明>
任意の \(p_i\) について
$$1 \geq p_i \geq 0$$
より
$$-p_i\log p_i \geq 0$$
である。したがって
$$H \geq 0$$
が導かれる。以上の議論より、 \(H=0\) となるのは、すべての \(i\) について
$$-p_i\log p_i=0$$
となるときであり、このとき、 \(p_i=0\) または \(p_i=1\) である。ここで
$$\sum_{i}p_i=1$$
より、 \(p_i\) は1つのみが \(1\) で、その他は \(0\) になることがわかる。
その2
\(n\) 個の事象が表すエントロピーの最大値 \(H(n)\) は
$$H(n)=\log n$$で、これは、すべての事象が等しい確率
$$p_i=\frac{1}{n}$$で起こるときの不確定度である。
<証明>
$$\sum_{i}p_i=1$$
の条件のもとで
$$H=-\sum_{i}p_i\log p_i$$
を最大にする \(p_i\) を求めることを考える。よって、ラグランジュの未定乗数を \(\lambda\) とし、
$$\Phi=H-\lambda\sum_{i}p_i=-\sum_{i}p_i\log p_i-\lambda\sum_{i}p_i$$
とおく。これを各 \(p_i\) で微分して、それらが \(0\) となるよう各 \(p_i\) を定めればよい。 \(\Phi\) を \(p_1\) で微分すると
$$\frac{\partial \Phi}{\partial p_1}=-\log p_i-log e-\lambda=0$$
※なお、ここで \(log_{2}p_i=\frac{\log_{e}p_i}{log_{e}2}\) より、 \(p_i(\log p_i)'=p_i\cdot\frac{1}{p_i}\cdot\frac{1}{log_{e}2}=\log_{2}e\) となることを用いた。
より
$$\log p_1=-\log e-\lambda$$
$$\log p_1=-\log e-\log 2^\lambda$$
$$\log p_1=\log \frac{1}{e}2^{-\lambda}$$
$$p_1=\frac{1}{e}2^{-\lambda}$$
となる。他の \(p_i\) についても同様で、すべての \(p_i\) について等しい確率値が得られる。よって、 \(\sum_{i}p_i=1\) から
$$p_1=p_2=\cdots=p_n=\frac{1}{n}$$
が導かれる。このときのエントロピーを求めると
$$H=-\sum_{i=1}^{n}\frac{1}{n}\log\frac{1}{n}=\log n$$
となる。このように、すべての確率が等しくなるのは、どの事象が起こるかについて目星がまったくついていない状況を表しており、この状況において不確定度が最大といえるのはもっともな話である。
<参考>
今回は事象が離散的な、すなわち \(n\) が有限個の場合のエントロピーの最大化について考えたが、連続型の確率変数 \(x\) に対する確率密度関数 \(p(x)\) によるエントロピー
$$H[p]\equiv\int_{-\infty}^{\infty}p(x)\{-\ln p(x)\}dx$$
が最大になるのは、 \(p(x)\) が正規分布
$$\mathcal{N}(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}$$
となるときである。
情報量とエントロピーの関係
「情報が持つ情報量」の定義
性質その2で見た通り、すべての事象が生じる確率が等しい時にエントロピーは最大になる。しかし、ここに「現象 \(A_i\) が起こりやすそう」などという情報が加わることで \(p_i\) が上昇し、その他の確率は低下した結果、エントロピーは減少する。このように、情報はエントロピー、すなわち不確定度を減少させる働きを持ち、このときの現象の度合いによって、その情報が持つ情報量を定義することができる。
情報を得ることによって、状況のエントロピーが \(H\) から \(H'\) へ変わるとき、この情報の持つ情報量を
$$I=H-H'$$とする。
例
情報量とエントロピーの計算について、以下のような例を示す。
その1
エントロピー \(H\) の状況において、とある情報が得られたことにより、どの現象が起こったかが確定したとき、不確定度は0になるため、エントロピーは
$$H'=0$$
に変化する。したがって、この情報が持つ情報量は
$$I=H-H'=H$$
となり、まさしく \(H\) 自身である。
その2
8頭立ての競馬を考える。ある予想屋が1着の馬を予想したとき、実際にその馬が1着になる確率は50%であるという。この予想屋が「4番の馬が1着」と予想したとき、この情報の情報量はどれほどだろうか。
1着になれる確率がすべての馬で等しいとすると、4番の馬が1着になる確率はもともと、 \(\frac{1}{8}=12.5\%\) である。よって、この状況におけるエントロピー \(H\) は
$$H=-(\frac{1}{8}\log{\frac{1}{8}}+\frac{1}{8}\log{\frac{1}{8}}+\cdots+\frac{1}{8}\log{\frac{1}{8}})$$
$$=-\frac{1}{8}\log{\frac{1}{8}}\times 8=3.0$$
ここに予想屋の「4番の馬が1着」という情報が加わると、1着になる確率は4番の馬だけ \(\frac{1}{2}=50\%\) で、その他の馬は\(\frac{0.5}{7}=\frac{1}{14}\simeq 7\%\) である。よって、この予想後のエントロピー \(H'\) は
$$H'=-(\frac{1}{2}\log{\frac{1}{2}}+\frac{1}{14}\log{\frac{1}{14}}+\frac{1}{14}\log{\frac{1}{14}}+\cdots+\frac{1}{14}\log{\frac{1}{14}})$$
$$=-(\frac{1}{2}\log{\frac{1}{2}}+\frac{1}{14}\log{\frac{1}{14}}\times 7)$$
$$=-\frac{1}{2}(\log{\frac{1}{2}}+\log{\frac{1}{14}})$$
$$\simeq -\frac{1}{2}(-1.0-3.8)=2.4$$
したがって、予想屋の情報が持つ情報量 \(I\) は
$$I=H-H'\simeq 3.0-2.4=0.6ビット$$
となる。
コメント