情報量/エントロピーの定義と意味を、具体例から導出する

情報理論では、情報量やエントロピー（平均情報量）を用いて、出来事（事象）に対する「驚き」や、未来に対する「不確実さ」を表現します。

この記事では、具体例から情報量とエントロピーの自然な定義を導出し、それらが何に使えるのか？どのような性質を持つのか？について解説します。

Index

情報量のイメージと性質
1. 考慮すべき特徴とイメージ
2. 情報量の定義
エントロピー
1. エントロピーの定義
2. エントロピーの性質

情報量のイメージと性質

考慮すべき特徴とイメージ

情報を量として扱うための指標を考えます。

その際、私達が情報に対して持っている感覚を、定義に組み込む必要があります。

以下のような状況を想定し、情報の性質について考えてみましょう。

とある市の美術館で絵が盗まれた。
犯人である怪盗Xは現在、この市のどこかに潜伏していることがわかっている。
この市は東と西の２つの地区に分けられ、それぞれの地区には北・中・南の通りが存在する。
つまり、この市には上の表のA~Fまでの６つの地域があるのだが、怪盗Xはこのうちのどこかに潜伏しているらしい。

	東地区	西地区
北通り	A	D
中通り	B	E
南通り	C	F

この後、この市の警察署にさまざまな情報が寄せられ、怪盗Xは逮捕されました。

このとき寄せられた情報には、有効なものから意味のないものまで色々ありました。

こうした情報の価値のことを情報量という指標で表現することにします。

以下、情報量の特徴について、具体例を挙げながら考えます。

情報量は、絞り込む数が増えるほど大きくなる

この市が６つではなく60の地域に分けられていた場合を想定します。

60の地域のうち１つに怪盗Xがいることを特定できる情報の価値は、６つの地域から１つを特定する場合よりも大きくなります。

よって、 $n$ 個のものから１つを特定するときの情報量を $f(n)$ と書くことにすると、情報量は $n$ の関数であり、 $n$ が増えるほど大きくなります。

情報量の和は、絞り込む数の積に対応する

今回の逮捕の決め手になったのは、次の２つの情報でした。

$\alpha$ ：「怪盗Xは東地区にいる」
$\beta$ ：「怪盗Xは中通りにいる」

これらの情報を組み合わせた結果、怪盗XがBの地域にいることが確定しました。

前項での情報量の定義にしたがうと、 $\alpha$ の情報は２つの地区から１つ、 $\beta$ の情報は３つの通りから１つを特定したため、それぞれの情報量は $f(2),f(3)$ と書けます。

そして、これらの情報を合わせて６つの地域から１つを特定できたため、以下の関係式が成り立つはずです。

$$f(6)=f(2)+f(3)$$

これを一般化すると、情報量 $f(n)$ は

$$f(mn)=f(m)+f(n)\tag{1}$$

をみたす関数であることがわかります。

情報量の定義

情報量を次のように定義することで、前節で挙げた特徴を網羅した指標を作ることができます。

確率 $p$ の事象が実際に生起したことを知らせる情報に含まれている情報量を
$$-\log_{2}p$$
（単位：ビット）と定義する。

以下、この定義が導かれる理由や「ビット」の意味について見ていきます。

情報量の基本形を導出する

$(1)$ 式より

$$f(x+\epsilon x)=f((1+\epsilon)x)=f(1+\epsilon)+f(x)$$

が成り立ちます。

これを変形すると

$$f(x+\epsilon x)-f(x)=f((1+\epsilon)x)=f(1+\epsilon)$$

$$\frac{f(x+\epsilon x)-f(x)}{\epsilon x}=\frac{1}{x}\frac{f(1+\epsilon)}{\epsilon}$$

となり、 $\epsilon\to 0$ の極限を取ると、左辺は導関数 $f'(x)$ の定義に等しくなります。

ここでいったん、右辺の極限値を

$$\lim_{\epsilon\to 0}\frac{f(1+\epsilon)}{\epsilon}=c$$

とおくと

$$f'(x)=\frac{c}{x}$$

と書けます。

この両辺を積分すると

$$f(x)=\int f'(x)dx=c\log_{e}x+d\tag{2}$$

となります。ここで、 $d$ は積分定数です。

情報の基本単位を決める

式 $(2)$ の $c, d$ の値を考えます。

$f(1)=0$ である（１つのものから１つを選ぶことに情報はない）ことを考慮すると

$$f(1)=c\log_{e}1+d=d=0$$

より、 $d=0$ であることがわかります。

一方、 $c$ の値は情報の基本単位をどう定めるかによって変化します。

最も一般的な決定方法としては、２つのものから１つを選ぶ「二者択一」の情報量を１と定める、つまり、 $f(2)=1$ として $c$ を計算する方法があります。

このとき、 $c=\log_{2}e$ となるため、情報量は

$$f(x)=\log_{2}e\cdot\log_{e}x$$

$$=\log_{2}e\frac{\log_{2}x}{\log_{2}e}=\log_{2}x$$

と表せます。

このときに用いた「二者択一」の情報量の単位をビットと言います。

その他にも、以下に示すような情報量の単位があります。

名称	対数の底	情報量の定義	特徴
ビット	2	$f(x)=\log_{2}x$	もっとも一般的
ディット	10	$f(x)=\log_{10}x$	十進数で扱える
ニット	e	$f(x)=\log_{e}x$	理論計算に便利

この記事で今後とくに記載のない場合は、情報量の単位にビット（底に $2$ ）を用いることにします。

確率を用いて定義しなおす

ここで再び怪盗Xの例に戻り、より一般化した状況を考えてみましょう。

とある市には $k$ 個の地区 $K_1, K_2, \cdots, K_k$ があり、それぞれが $l$ 本の通り $L_1, L_2, \cdots, L_l$ を持っている。
つまり、この市には $n=kl$ 個の地域が存在する。

他に何の情報もない場合、怪盗Xが特定の地区 $K_i$ にいる確率 $p(K_i)$ は、

$$p(K_i)=\frac{l}{n}$$

と表せます。

この、地区を特定する情報の情報量を (I) とすると、この情報にあと「 $l$ 本の通りから１つを特定する」情報量が加わると、「 $n$ 個の地域から１つを特定する」ことができるので、以下の式が成り立ちます。

$$\log n=I+\log l$$

これを変形すると

$$I=\log n - \log l=\log\frac{n}{l}=-\log\frac{l}{n}=-\log p(K_i)$$

と書けます。

したがって、確率 $p$ で生じる事象を特定する情報量は

$$-\log p$$

で表せることがわかります。

情報量は「結果を知ったときの影響度」をあらわす

以上をまとめると、冒頭の情報量の定義が成り立ちます。

確率 $p$ の事象が実際に生起したことを知らせる情報に含まれている情報量を
$$-\log_{2}p$$
（単位：ビット）と定義する。

つまり、とある事象が起こりにくいと強く信じられているほど、それが実際に起こったと知らされた時の情報量は大きくなります。

情報量を「驚きの程度」と捉えれば、これは日常的な感覚に即した定義といえます。

エントロピー

エントロピーの定義

今後起こりうるすべての事象の確率にもとづいて、現在の状態から得られる情報量の期待値を求めることができます。

この期待値をエントロピーと呼びます。

$n$ 個の事象 $A_1,A_2,\cdots,A_n$ が、それぞれ $p_1,p_2,\cdots,p_n$ の確率で生じる状況におけるエントロピー $H$ を
$$H(p_1,p_2,\cdots,p_n)=-\sum_{i=1}^{n}p_i\log p_i$$
と定義する。

エントロピーの性質

エントロピーは一般に、「とある状態における不確定度」として考えることができます。

具体的には、 $n$ 個の事象のうち、どれが起こるか全く予想がつかない場合では、どの現象が生じてもかなり驚きがある（エントロピーが大きい）のに対し、

起こる現象に大体目星がついている状態では、およそ予想通りの現象がおこるため驚きも少ない（エントロピーが小さい）という性質があります。

こうした性質は、以下のようにまとめられます。

確率100%の事象があるときのみ、エントロピーはゼロ

エントロピー $H$ は非負
$$H \geq 0$$
であり、
$$H=0$$
が成立するのは、どれか１つの $p_i$ が $1$ であり、その他はすべて $0$ のときに限られる。

任意の $p_i$ について

$$0 \leq p_i \leq 1$$

より

$$-p_i\log p_i \geq 0$$

となります。したがって

$$H \geq 0$$

です。

$H=0$ となるのは、すべての $i$ について

$$-p_i\log p_i=0$$

となるときであり、これは、 $p_i=0$ または $p_i=1$ を意味します。

ただし、確率のルールとして

$$\sum_{i}p_i=1$$

という条件があるため、 $p_i$ は１つのみが $1$ で、その他は $0$ になることがわかります。

すべての確率が等しいとき、エントロピーは最大

$n$ 個の事象が表すエントロピーの最大値 $H(n)$ は
$$H(n)=\log n$$
で、これは、すべての事象が等しい確率
$$p_i=\frac{1}{n}$$
で起こるときの不確定度である。

$$\sum_{i}p_i=1$$

の条件のもとで

$$H=-\sum_{i}p_i\log p_i$$

を最大にする $p_i$ を求めることを考えます。

ラグランジュの未定乗数を $\lambda$ とし、

$$\Phi=H-\lambda\sum_{i}p_i=-\sum_{i}p_i\log p_i-\lambda\sum_{i}p_i$$

とおきます。

ラグランジュの未定乗数法は、上式を各 $p_i$ で微分して、それらが $0$ となるように各 $p_i$ を定めることで、式の最大値を求める手法です。

$\Phi$ を $p_1$ で微分すると

$$\frac{\partial \Phi}{\partial p_1}=-\log p_i-log e-\lambda=0$$

（ $log_{2}p_i=\frac{\log_{e}p_i}{log_{e}2}$ より、 $p_i(\log p_i)'=p_i\cdot\frac{1}{p_i}\cdot\frac{1}{log_{e}2}=\log_{2}e$ となることを用いた）

より

$$\log p_1=-\log e-\lambda$$

$$\log p_1=-\log e-\log 2^\lambda$$

$$\log p_1=\log \frac{1}{e}2^{-\lambda}$$

$$p_1=\frac{1}{e}2^{-\lambda}$$

となります。

他の $p_i$ についても同様で、すべての確率 $p_i$ を同じ形で表せます。

よって、 $\sum_{i}p_i=1$ から

$$p_1=p_2=\cdots=p_n=\frac{1}{n}$$

が導かれます。

このときのエントロピーを求めると

$$H=-\sum_{i=1}^{n}\frac{1}{n}\log\frac{1}{n}=\log n$$