PRML10章 演習10.39解答(その4:(10.223),(10.224)の導出)

機械学習・AI
Sponsored

問題、記号の意味、利用した式については

【PRML10章 演習10.39解答】EP法による事後分布の更新
PRML10章 演習10.39の解答・解説。EP法によって更新した事後分布の平均と分散を導出する。それに際し、パラメータの期待値を計算する。その後近似因子のパラメータを求め、モデルエビデンスが近似される値を導く。

を参照。

目標

モデルエビデンスが

$$p(\mathcal{D})\simeq\left(\frac{\nu^{\mathrm {new}}}{b}\right)^{D/2}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\tag{10.223}$$

で近似できることを示せ。

ただし

$$B=\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{\nu_{n}}\tag{10.224}$$

である。

解答

\((10.208)\) より

$$p(\mathcal{D})\simeq\int\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$

である。

ここで、 \((10.210), (10.213)\) と \(\tilde{f}_{0}(\boldsymbol{\theta})=p(\boldsymbol{\theta})\) を用いて積分の中身を変形すると

$$\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})=p(\boldsymbol{\theta})\prod_{n=1}^{N}\tilde{f}_{n}(\boldsymbol{\theta})$$

$$=\mathcal{N}(\boldsymbol{\theta}|\mathbf{0},b\mathbf{I})\prod_{n=1}^{N}s_{n}\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})$$

$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left\{-\frac{1}{2b}\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}-\sum_{n=1}^{N}\frac{1}{2\nu_{n}}(\boldsymbol{\theta}-\mathbf{m}_{n})^{\mathrm{T}}(\boldsymbol{\theta}-\mathbf{m}_{n})\right\}}\tag{1}$$

となる。

繰り返し計算の結果、 \(q(\boldsymbol{\theta})\) のパラメータは、それぞれ \(\mathbf{m}^{\mathrm{new}}\), \(\nu^{\mathrm{new}}\) に更新されているとして、 \((10.203)\) より

$$\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})=Zq(\boldsymbol{\theta})=Z\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}^{\mathrm{new}},\nu^{\mathrm{new}}\mathbf{I})$$

と表されることを考えると、式 \((1)\) の指数部は

$$-\frac{1}{2\nu^{\mathrm{new}}}(\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}(\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}})$$

の形に平方完成できる。

\(\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}\) に依存する項について係数を比較すると

$$-\frac{1}{2\nu^{\mathrm{new}}}=-\frac{1}{2b}-\sum_{n=1}^{N}\frac{1}{2\nu_{n}}$$

$$(\nu^{\mathrm{new}})^{-1}=b^{-1}+\sum_{n=1}^{N}\nu_{n}^{-1}\tag{2}$$

を得る。

同様に、 \(\boldsymbol{\theta}^{\mathrm{T}}\) にのみ依存する項についての係数比較を行うと

$$\frac{1}{2\nu^{\mathrm{new}}}\mathbf{m}^{\mathrm{new}}=\sum_{n=1}^{N}\frac{1}{2\nu_{n}}\mathbf{m}_{n}$$

$$\frac{\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}=\sum_{n=1}^{N}\frac{\mathbf{m}_{n}}{\nu_{n}}\tag{3}$$

を得る。

以上より、式 \((1)\) は以下のように書ける。

$$\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})$$

$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left\{-\frac{1}{2\nu^{\mathrm{new}}}(\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}(\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}})+\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{2\nu_{n}}\right\}}$$

$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left\{-\frac{1}{2\nu^{\mathrm{new}}}||\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}}||^{2}\right\}}\exp{\left(\frac{B}{2}\right)}$$

ここで、

$$B=\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{\nu_{n}}\tag{10.224☆}$$

と置いた。

上式を積分すると

$$p(\mathcal{D})\simeq\int\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$

$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\int\exp{\left\{-\frac{1}{2\nu^{\mathrm{new}}}||\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}}||^{2}\right\}}d\boldsymbol{\theta}$$

$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}(2\pi\nu^{\mathrm{new}})^{D/2}$$

$$=\left(\frac{\nu^{\mathrm{new}}}{b}\right)^{D/2}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\tag{10.223☆}$$

を得る。ただし、 \(\mathbf{m}^{\mathrm{new}}\) , \(\nu^{\mathrm{new}}\) は式 \((2), (3)\) をみたす。

Comments