スポンサーリンク

PRML10章 演習10.39解答(その4:(10.223),(10.224)の導出)

自然科学

問題、記号の意味、利用した式については

PRML10章 演習10.39解答
問題EP法により更新された近似分布 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) と分散 \(\nu^{\mathrm{n...

を参照。

目標

モデルエビデンスが

$$p(\mathcal{D})\simeq\left(\frac{\nu^{\mathrm {new}}}{b}\right)^{D/2}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\tag{10.223}$$

で近似できることを示せ。ただし

$$B=\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{\nu_{n}}\tag{10.224}$$

である。

解答

\((10.208)\) より

$$p(\mathcal{D})\simeq\int\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$

である。ここで、\((10.210), (10.213)\) と \(\tilde{f}_{0}(\boldsymbol{\theta})=p(\boldsymbol{\theta})\) を用いて積分の中身を変形すると

$$\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})=p(\boldsymbol{\theta})\prod_{n=1}^{N}\tilde{f}_{n}(\boldsymbol{\theta})$$
$$=\mathcal{N}(\boldsymbol{\theta}|\mathbf{0},b\mathbf{I})\prod_{n=1}^{N}s_{n}\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})$$
$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left\{-\frac{1}{2b}\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}-\sum_{n=1}^{N}\frac{1}{2\nu_{n}}(\boldsymbol{\theta}-\mathbf{m}_{n})^{\mathrm{T}}(\boldsymbol{\theta}-\mathbf{m}_{n})\right\}}\tag{1}$$

となる。繰り返し計算の結果、\(q(\boldsymbol{\theta})\) のパラメータは、それぞれ \(\mathbf{m}^{\mathrm{new}}\), \(\nu^{\mathrm{new}}\) に更新されているとして、\((10.203)\) より

$$\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})=Zq(\boldsymbol{\theta})=Z\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}^{\mathrm{new}},\nu^{\mathrm{new}}\mathbf{I})$$

と表されることを考えると、式 \((1)\) の指数部は

$$-\frac{1}{2\nu^{\mathrm{new}}}(\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}(\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}})$$

の形に平方完成できる。\(\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}\) に依存する項について係数を比較すると

$$-\frac{1}{2\nu^{\mathrm{new}}}=-\frac{1}{2b}-\sum_{n=1}^{N}\frac{1}{2\nu_{n}}$$
$$(\nu^{\mathrm{new}})^{-1}=b^{-1}+\sum_{n=1}^{N}\nu_{n}^{-1}\tag{2}$$

を得る。同様に、\(\boldsymbol{\theta}^{\mathrm{T}}\) にのみ依存する項についての係数比較を行うと

$$\frac{1}{2\nu^{\mathrm{new}}}\mathbf{m}^{\mathrm{new}}=\sum_{n=1}^{N}\frac{1}{2\nu_{n}}\mathbf{m}_{n}$$
$$\frac{\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}=\sum_{n=1}^{N}\frac{\mathbf{m}_{n}}{\nu_{n}}\tag{3}$$

を得る。以上より、式 \((1)\) は以下のように書ける。

$$\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})$$
$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left\{-\frac{1}{2\nu^{\mathrm{new}}}(\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}(\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}})
+\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{2\nu_{n}}\right\}}$$
$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left\{-\frac{1}{2\nu^{\mathrm{new}}}||\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}}||^{2}\right\}}\exp{\left(\frac{B}{2}\right)}$$

ここで、

$$B=\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{\nu_{n}}\tag{10.224☆}$$

と置いた。上式を積分すると

$$p(\mathcal{D})\simeq\int\prod_{n}\tilde{f}_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$
$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\int\exp{\left\{-\frac{1}{2\nu^{\mathrm{new}}}||\boldsymbol{\theta}-\mathbf{m}^{\mathrm{new}}||^{2}\right\}}d\boldsymbol{\theta}$$
$$=\frac{1}{(2\pi b)^{D/2}}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}(2\pi\nu^{\mathrm{new}})^{D/2}$$
$$=\left(\frac{\nu^{\mathrm{new}}}{b}\right)^{D/2}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\tag{10.223☆}$$

を得る。ただし、\(\mathbf{m}^{\mathrm{new}}\), \(\nu^{\mathrm{new}}\) は式 \((2), (3)\) をみたす。

コメント