スポンサーリンク

最尤推定法による多次元正規分布へのフィッティング

自然科学

1次元の場合と同様に、対数尤度関数の微分を\(0\)とおくことで、多次元正規分布(多次元ガウス分布)にデータをフィットさせる。

定義

多次元正規分布

$$\mathcal{N}({\bf x}|{\boldsymbol \mu},{\boldsymbol \Sigma}) \equiv \frac{|{\boldsymbol \Sigma}|^{-\frac{1}{2}}}{(2\pi)^\frac{M}{2}}\exp\left\{-\frac{1}{2}({\bf x}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}-{\boldsymbol \mu})\right\} \tag{1}$$

導出

観測結果 \(\mathcal{D}={{\bf x}^{(1)},{\bf x}^{(2)},\cdots,{\bf x}^{(N)}}\) が与えられたとき、尤度関数は

$$p(\mathcal{D}|{\boldsymbol \theta}) \equiv \prod_{i=1}^{N}p({\bf x}^{(i)}|{\boldsymbol \theta})$$

で与えられる。両辺の対数を取ったものを対数尤度関数\(L({\boldsymbol \theta}|\mathcal{D})\)とおくと、

$$L({\boldsymbol \theta}|\mathcal{D})\equiv\ln{p(\mathcal{D}|{\boldsymbol \theta})}=\sum_{i=1}^{N}\ln{p({\bf x}^{(i)}|{\boldsymbol \theta})}$$

である。ここで、データが従う確率を多次元正規分布と仮定し、

$$p({\bf x}^{(i)}|{\boldsymbol \theta})\simeq p({\bf x}^{(i)}|{\boldsymbol \mu},{\boldsymbol \Sigma})$$

とおいて式\((1)\)とともに代入すると、

$$L({\boldsymbol \theta}|\mathcal{D})=\sum_{i=1}^{N}\ln{p({\bf x}^{(i)}|{\boldsymbol \mu},{\boldsymbol \Sigma})}$$
$$=\sum_{i=1}^{N}\left\{-\frac{M}{2}\ln{(2\pi)}+\frac{1}{2}\ln{|{\boldsymbol \Sigma}^{-1}|}-\frac{1}{2}({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})\right\}$$
$$=-\frac{MN}{2}\ln{(2\pi)}+\frac{N}{2}\ln{|{\boldsymbol \Sigma}^{-1}|}-\frac{1}{2}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})\tag{2}$$

を得る。

\({\boldsymbol \mu}\)に関する微分を\(0\)とおくと、

$$\frac{\partial L({\boldsymbol \theta}|\mathcal{D})}{\partial {\boldsymbol \mu}}=-\frac{1}{2}\sum_{i=1}^{N}{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})=0$$

すなわち、

$$-\frac{1}{2}{\boldsymbol \Sigma}^{-1}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})=0$$
$$\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})=0$$
$$\sum_{i=1}^{N}{\bf x}^{(i)}=\sum_{i=1}^{N}{\boldsymbol \mu}$$
$$\sum_{i=1}^{N}{\bf x}^{(i)}=N{\boldsymbol \mu}$$
$${\boldsymbol \mu}=\frac{1}{N}\sum_{i=1}^{N}{\bf x}^{(i)}\tag{3}$$

を得る。

\({\boldsymbol \Sigma}\)に関しては、少々技巧的な処理が必要となる。ここでは、\({\boldsymbol \Sigma}\)ではなく\({\boldsymbol \Sigma}^{-1}\)についての微分を考える。

まず、式\((2)\)の第1項は\({\boldsymbol \Sigma}^{-1}\)に依存しない。第2項の微分は、

$$\frac{N}{2}\frac{\partial}{\partial {\boldsymbol \Sigma}^{-1}}\ln{|{\boldsymbol \Sigma}^{-1}|}=\frac{N}{2}{\boldsymbol \Sigma}^T=\frac{N}{2}{\boldsymbol \Sigma}\tag{(4)}$$

となる。ここで、共分散行列が対象行列であること(\({\boldsymbol \Sigma}^T={\boldsymbol \Sigma}\))と、公式

$$\frac{\partial}{\partial {\boldsymbol A}}\ln{|{\boldsymbol A}|}=({\boldsymbol A}^{-1})^T$$

を用いた。この公式の証明については

を参照。

第3項の微分を行う前に、\(({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})\)は1次元(ベクトルでも行列でもない)なので、トレースを取っても良いことに注意する。したがって、

$$-\frac{1}{2}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})=-\frac{1}{2}\sum_{i=1}^{N}\mathrm{Tr}\left[({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})\right]$$
$$=-\frac{1}{2}\sum_{i=1}^{N}\mathrm{Tr}\left[{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T\right]$$

を得る。ここで、トレースについての循環公式

$$\mathrm{Tr}({\boldsymbol A}{\boldsymbol B}{\boldsymbol C})=\mathrm{Tr}({\boldsymbol B}{\boldsymbol C}{\boldsymbol A})=\mathrm{Tr}({\boldsymbol C}{\boldsymbol A}{\boldsymbol B})$$

を用いた。これを\({\boldsymbol \Sigma}^{-1}\)について微分すると

$$-\frac{1}{2}\frac{\partial}{\partial {\boldsymbol \Sigma}^{-1}}\sum_{i=1}^{N}\mathrm{Tr}\left[{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T\right]=-\frac{1}{2}\sum_{i=1}^{N}\{({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T\}^T$$
$$=-\frac{1}{2}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T\tag{(5)}$$

となる。ここで、行列の転置に関する関係式

$$({\boldsymbol A}{\boldsymbol B})^T={\boldsymbol B}^T{\boldsymbol A}^T$$

と、トレースの微分公式

$$\frac{\partial}{\partial {\boldsymbol A}}\mathrm{Tr}({\boldsymbol A}{\boldsymbol B})={\boldsymbol B}^T$$

を用いた。この公式は、各要素を書き下すことによって証明できる。

式\((4), (5)\)の結果より、対数尤度関数の微分を\(0\)と置いて

$$\frac{\partial L({\boldsymbol \theta}|\mathcal{D})}{\partial {\boldsymbol \Sigma}^{-1}}=\frac{N}{2}{\boldsymbol \Sigma}-\frac{1}{2}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T=0$$

すなわち

$${\boldsymbol \Sigma}=\frac{1}{N}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T$$

を得る。

まとめ

\(M\)次元の観測結果 \(\mathcal{D}={{\bf x}^{(1)},{\bf x}^{(2)},\cdots,{\bf x}^{(N)}}\)を、\(M\)次元正規分布にフィッティングした場合、最尤推定により

$$\mathcal{N}({\bf x}|\hat{\boldsymbol \mu},\hat{\boldsymbol \Sigma})$$

を得る。ただし

$$\hat{\boldsymbol \mu}=\frac{1}{N}\sum_{i=1}^{N}{\bf x}^{(i)}$$
$$\hat{\boldsymbol \Sigma}=\frac{1}{N}\sum_{i=1}^{N}({\bf x}^{(i)}-\hat{\boldsymbol \mu})({\bf x}^{(i)}-\hat{\boldsymbol \mu})^T$$

コメント