1次元の場合と同様に、対数尤度関数の微分を\(0\)とおくことで、多次元正規分布(多次元ガウス分布)にデータをフィットさせる。
定義
多次元正規分布
$$\mathcal{N}({\bf x}|{\boldsymbol \mu},{\boldsymbol \Sigma}) \equiv \frac{|{\boldsymbol \Sigma}|^{-\frac{1}{2}}}{(2\pi)^\frac{M}{2}}\exp\left\{-\frac{1}{2}({\bf x}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}-{\boldsymbol \mu})\right\} \tag{1}$$
導出
観測結果 \(\mathcal{D}={{\bf x}^{(1)},{\bf x}^{(2)},\cdots,{\bf x}^{(N)}}\) が与えられたとき、尤度関数は
$$p(\mathcal{D}|{\boldsymbol \theta}) \equiv \prod_{i=1}^{N}p({\bf x}^{(i)}|{\boldsymbol \theta})$$
で与えられる。両辺の対数を取ったものを対数尤度関数\(L({\boldsymbol \theta}|\mathcal{D})\)とおくと、
$$L({\boldsymbol \theta}|\mathcal{D})\equiv\ln{p(\mathcal{D}|{\boldsymbol \theta})}=\sum_{i=1}^{N}\ln{p({\bf x}^{(i)}|{\boldsymbol \theta})}$$
である。ここで、データが従う確率を多次元正規分布と仮定し、
$$p({\bf x}^{(i)}|{\boldsymbol \theta})\simeq p({\bf x}^{(i)}|{\boldsymbol \mu},{\boldsymbol \Sigma})$$
とおいて式\((1)\)とともに代入すると、
$$L({\boldsymbol \theta}|\mathcal{D})=\sum_{i=1}^{N}\ln{p({\bf x}^{(i)}|{\boldsymbol \mu},{\boldsymbol \Sigma})}$$
$$=\sum_{i=1}^{N}\left\{-\frac{M}{2}\ln{(2\pi)}+\frac{1}{2}\ln{|{\boldsymbol \Sigma}^{-1}|}-\frac{1}{2}({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})\right\}$$
$$=-\frac{MN}{2}\ln{(2\pi)}+\frac{N}{2}\ln{|{\boldsymbol \Sigma}^{-1}|}-\frac{1}{2}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})\tag{2}$$
を得る。
\({\boldsymbol \mu}\)に関する微分を\(0\)とおくと、
$$\frac{\partial L({\boldsymbol \theta}|\mathcal{D})}{\partial {\boldsymbol \mu}}=-\frac{1}{2}\sum_{i=1}^{N}{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})=0$$
すなわち、
$$-\frac{1}{2}{\boldsymbol \Sigma}^{-1}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})=0$$
$$\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})=0$$
$$\sum_{i=1}^{N}{\bf x}^{(i)}=\sum_{i=1}^{N}{\boldsymbol \mu}$$
$$\sum_{i=1}^{N}{\bf x}^{(i)}=N{\boldsymbol \mu}$$
$${\boldsymbol \mu}=\frac{1}{N}\sum_{i=1}^{N}{\bf x}^{(i)}\tag{3}$$
を得る。
\({\boldsymbol \Sigma}\)に関しては、少々技巧的な処理が必要となる。ここでは、\({\boldsymbol \Sigma}\)ではなく\({\boldsymbol \Sigma}^{-1}\)についての微分を考える。
まず、式\((2)\)の第1項は\({\boldsymbol \Sigma}^{-1}\)に依存しない。第2項の微分は、
$$\frac{N}{2}\frac{\partial}{\partial {\boldsymbol \Sigma}^{-1}}\ln{|{\boldsymbol \Sigma}^{-1}|}=\frac{N}{2}{\boldsymbol \Sigma}^T=\frac{N}{2}{\boldsymbol \Sigma}\tag{(4)}$$
となる。ここで、共分散行列が対象行列であること(\({\boldsymbol \Sigma}^T={\boldsymbol \Sigma}\))と、公式
$$\frac{\partial}{\partial {\boldsymbol A}}\ln{|{\boldsymbol A}|}=({\boldsymbol A}^{-1})^T$$
を用いた。この公式の証明については
を参照。
第3項の微分を行う前に、\(({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})\)は1次元(ベクトルでも行列でもない)なので、トレースを取っても良いことに注意する。したがって、
$$-\frac{1}{2}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})=-\frac{1}{2}\sum_{i=1}^{N}\mathrm{Tr}\left[({\bf x}^{(i)}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})\right]$$
$$=-\frac{1}{2}\sum_{i=1}^{N}\mathrm{Tr}\left[{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T\right]$$
を得る。ここで、トレースについての循環公式
$$\mathrm{Tr}({\boldsymbol A}{\boldsymbol B}{\boldsymbol C})=\mathrm{Tr}({\boldsymbol B}{\boldsymbol C}{\boldsymbol A})=\mathrm{Tr}({\boldsymbol C}{\boldsymbol A}{\boldsymbol B})$$
を用いた。これを\({\boldsymbol \Sigma}^{-1}\)について微分すると
$$-\frac{1}{2}\frac{\partial}{\partial {\boldsymbol \Sigma}^{-1}}\sum_{i=1}^{N}\mathrm{Tr}\left[{\boldsymbol \Sigma}^{-1}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T\right]=-\frac{1}{2}\sum_{i=1}^{N}\{({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T\}^T$$
$$=-\frac{1}{2}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T\tag{(5)}$$
となる。ここで、行列の転置に関する関係式
$$({\boldsymbol A}{\boldsymbol B})^T={\boldsymbol B}^T{\boldsymbol A}^T$$
と、トレースの微分公式
$$\frac{\partial}{\partial {\boldsymbol A}}\mathrm{Tr}({\boldsymbol A}{\boldsymbol B})={\boldsymbol B}^T$$
を用いた。この公式は、各要素を書き下すことによって証明できる。
式\((4), (5)\)の結果より、対数尤度関数の微分を\(0\)と置いて
$$\frac{\partial L({\boldsymbol \theta}|\mathcal{D})}{\partial {\boldsymbol \Sigma}^{-1}}=\frac{N}{2}{\boldsymbol \Sigma}-\frac{1}{2}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T=0$$
すなわち
$${\boldsymbol \Sigma}=\frac{1}{N}\sum_{i=1}^{N}({\bf x}^{(i)}-{\boldsymbol \mu})({\bf x}^{(i)}-{\boldsymbol \mu})^T$$
を得る。
まとめ
\(M\)次元の観測結果 \(\mathcal{D}={{\bf x}^{(1)},{\bf x}^{(2)},\cdots,{\bf x}^{(N)}}\)を、\(M\)次元正規分布にフィッティングした場合、最尤推定により
$$\mathcal{N}({\bf x}|\hat{\boldsymbol \mu},\hat{\boldsymbol \Sigma})$$
を得る。ただし
$$\hat{\boldsymbol \mu}=\frac{1}{N}\sum_{i=1}^{N}{\bf x}^{(i)}$$
$$\hat{\boldsymbol \Sigma}=\frac{1}{N}\sum_{i=1}^{N}({\bf x}^{(i)}-\hat{\boldsymbol \mu})({\bf x}^{(i)}-\hat{\boldsymbol \mu})^T$$
コメント