この記事では、エントロピーを最大化する確率分布を求めることで、正規分布
$$\mathcal{N}(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}$$
を導出する。正規分布はエントロピーを最大化するという点において特別であり、そのために統計学や情報学などの分野で重要な分布として扱われている。
前提
正規分布の導出のためには、連続型の確率変数 \(x\) に対する確率密度関数 \(p(x)\) によるエントロピー
$$H[p]\equiv\int_{-\infty}^{\infty}p(x)\{-\ln p(x)\}dx \tag{1}$$
を考える。
確率変数・確率密度関数についての詳細は以下を参照。
また、エントロピーの定義と、確率変数が離散的な場合のエントロピーの最大化については以下を参照。
さて、 \((1)\) 式で表されるエントロピーは、関数 \(p(x)\) の形状によってその値を変えるため、その意味で「関数の関数」として捉えることができる。このように、関数を引数として受け取ってスカラーとしての値を返す関数のことを汎関数といい、それを最大化する関数 \(p(x)\) を求めるためには変分法の原理を用いる。
正規分布の導出
以下、上記の前提に基づいて汎関数 \(H[p]\) を最大化する関数 \(p(x)\) を求めていくことになるのだが、 \(p(x)\) にはいくつかの制限がかかることを考慮する必要がある。まず、 \(p(x)\) は確率密度関数であるため、規格化条件
$$\int_{-\infty}^{\infty}p(x)dx=1 \tag{2}$$
を満たす。また、 \(p(x)\) が平均 \(\mu\) 、分散 \(\sigma^2\) を持つとすると、それぞれの条件より
- $$\int_{-\infty}^{\infty}p(x)(x-\mu)dx=0 \tag{2}$$
- $$\int_{-\infty}^{\infty}p(x)(x-\mu)^2=\sigma^2 \tag{3}$$
を満たす。以上、 \((2),(3),(4)\) 式の条件をラグランジュ乗数 \(\lambda_1, \lambda_2, \lambda_3\) によって取り込んで
$$\Phi[p]=H[p]-\lambda_1\int_{-\infty}^{\infty}p(x)dx-\lambda_2\int_{-\infty}^{\infty}p(x)(x-\mu)dx-\lambda_3\int_{-\infty}^{\infty}p(x)(x-\mu)^2dx$$
$$\Phi[p]=\int_{-\infty}^{\infty}[p(x)\{-\ln p(x)\}-\lambda_1p(x)-\lambda_2p(x)(x-\mu)-\lambda_3p(x)(x-\mu)^2]dx$$
とおく。この汎関数 \(\Phi[p]\) を最大化するためには一次変分 \(\delta\Phi[p]=0\) とすればよい。ここで、 \(\Phi[p]\) は \(p(x)\) の導関数に依存しない関数であるから
$$F(x,p)=p(x)\{-\ln p(x)\}-\lambda_1p(x)-\lambda_2p(x)(x-\mu)-\lambda_3p(x)(x-\mu)^2$$
とおくと
$$\delta\Phi[p]=\int_{-\infty}^{\infty}F_p(x,p)\delta p\,dx$$
$$=\int_{-\infty}^{\infty}\{-\ln p-1-\lambda_1-\lambda_2(x-\mu)-\lambda_3(x-\mu)^2\}\delta p\,dx=0$$
すなわち、任意の \(x\) について
$$\ln p+1+\lambda_1+\lambda_2(x-\mu)+\lambda_3(x-\mu)^2=0 \tag{5}$$
が成り立つ。この関係式より、 \(\ln p\) が \(x-\mu\) の2次関数になっていることがわかる。ここで、 \(p\) が規格化条件を満たすためには \(x \to \pm \infty\) において \(p \to 0\) となる必要がある。任意の \(x\) において \(0 < p < 1\) となることより、この範囲で \(y = \log p\) のグラフについて考えると

import numpy as np
from matplotlib import pyplot as plt
p = np.linspace(1e-7,1,100)
y = np.log(p)
plt.plot(p,y)
plt.title("y = log p")
plt.xlabel("p")
plt.ylabel("y")
plt.show()
\(p \to 0\) のとき、 \(\log p \to -\infty\) となるので、 \((5)\) 式の2次関数は上に凸となる。したがって \(p\) は
$$p(x) = C\exp\{-\alpha^2(x-\beta)^2\}$$
$$= C\exp(-\alpha^2x^2+2\alpha^2\beta x-\alpha^2\beta^2)$$
の形に限られる。ここで、ガウス積分
\(a>0\) のとき
- $$\int_{-\infty}^{\infty}\exp(-ax^2+bx+c)dx = \sqrt{\frac{\pi}{a}}\exp(\frac{b^2}{4a}+c) \tag{6}$$
- $$\int_{-\infty}^{\infty}x^2\exp(-ax^2)dx = \frac{1}{2a}\sqrt{\frac{\pi}{a}} \tag{7}$$
を用いると、 \((2)\) 式の規格化条件と \((6)\) 式より
$$\int_{-\infty}^{\infty}C\exp(-\alpha^2x^2+2\alpha^2\beta x-\alpha^2\beta^2)dx$$
$$=C\sqrt{\frac{\pi}{\alpha^2}}\exp(\frac{4\alpha^4\beta^2}{4\alpha^2}-\alpha^2\beta^2)$$
$$=C\sqrt{\frac{\pi}{\alpha^2}}=1$$
より
$$C=\frac{\alpha}{\sqrt{\pi}}$$
を示すことができる。また、 \((3)\) 式の平均値の条件より
$$\int_{-\infty}^{\infty}C\exp\{-\alpha^2(x-\beta)^2\}(x-\mu)dx = 0$$
となるが、 \(\beta=\mu\) のとき、この条件は満たされる。なぜならば、 \(\beta=\mu,\,y=x-\mu\) とおき、左辺の変数を置換すると
$$(左辺) = C\int_{-\infty}^{\infty}e^{y^2}y\,\frac{dy}{dx}\,dx = C\int_{-\infty}^{\infty}e^{y^2}y\,dx$$
となるが、ここで \(f(y)=e^{y^2}y\) とおくと
$$f(-y) = e^{(-y)^2}(-y) = -e^{y^2}y = -f(y)$$
より、被積分関数は奇関数となる。したがって、奇関数を区間 \((-\infty,\infty)\) で積分すると0になるため、上記の条件が成り立つ。最後に、 \((4)\) 式の分散の条件と \((7)\) 式より(再び \(y=x-\mu\) とおく)
$$\int_{-\infty}^{\infty}\frac{\alpha}{\sqrt{\pi}}\exp\{-\alpha^2(x-\beta)^2\}(x-\mu)^2dx = \int_{-\infty}^{\infty}\frac{\alpha}{\sqrt{\pi}}\exp\{-\alpha^2(x-\mu)^2\}(x-\mu)^2dx$$
$$= \int_{-\infty}^{\infty}\frac{\alpha}{\sqrt{\pi}}\exp(-\alpha^2y^2)y^2\,\frac{dy}{dx}\,dx$$
$$= \frac{\alpha}{\sqrt{\pi}}\int_{-\infty}^{\infty}y^2\exp(-\alpha^2y^2)dy$$
$$= \frac{\alpha}{\sqrt{\pi}}\cdot\frac{1}{2\alpha^2}\sqrt{\frac{\pi}{\alpha^2}} = \sigma^2$$
すなわち
$$\alpha^2 = \frac{1}{2\sigma^2}$$
となる。以上より
$$p(x) = \frac{\sqrt{\frac{1}{2\sigma^2}}}{\sqrt{\pi}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)\}$$
$$= \frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)\}$$
として、正規分布が導かれた。
正規分布の特徴
正規分布が平均値と分散の制約のもとでエントロピーを最大にする理由は、以下のように考えられる。
エントロピーは不確定度を表す指標であり、それを最大化するためには、全体にまんべんなく広がった分布であることが望ましい。しかし、それでは分散の条件を満たさなくなるため、分布はある程度の範囲に収まっていなければならない。その意味で正規分布は、分散の制約を満たしながら可能な限り広がった分布であるといえる。
コメント