【PRML10章演習10.39解答】EP法による事後分布の更新

Index

問題
正誤表
解答
1. 証明
2. 証明に用いた式

問題

EP法により更新された近似分布 $q^{\mathrm{new}}(\boldsymbol{\theta})$ の平均 $\mathbf{m}^{\mathrm{new}}$ と分散 $\nu^{\mathrm{new}}$ が

$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217}$$

$$\nu^{\mathrm{new}}=\nu^{\backslash n}-\rho_{n}\frac{(\nu^{\backslash n})^{2}}{\nu^{\backslash n}+1}+\rho_{n}(1-\rho_{n})\frac{(\nu^{\backslash n})^{2}||\mathbf{x}_n-\mathbf{m}^{\backslash n}||^{2}}{D(\nu^{\backslash n}+1)^{2}}\tag{10.218}$$

で表されることを示せ。

ただし

$$\rho_{n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219}$$

である。

その際、先に $q^{\mathrm{new}}(\boldsymbol{\theta})$ の下で

$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244}$$

$$\mathbb{E}[\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}]=2(\nu^{\backslash n})^{2}\nabla_{\nu^{\backslash n}}\ln{Z_{n}}+2\mathbb{E}[\boldsymbol{\theta}]^{\mathrm{T}}\mathbf{m}^{\backslash n}-||\mathbf{m}^{\backslash n}||^{2}+\nu^{\backslash n}D\tag{10.245}$$

となることを証明せよ。

また、EP法により改良された近似因子 $\tilde{f}_{n}(\boldsymbol{\theta})$ のパラメータが

$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220}$$

$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221}$$

$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222}$$

で与えられることを示せ。

最後に、モデルエビデンス $p(\mathcal{D})$ が

$$p(\mathcal{D})\simeq\left(\frac{\nu^{\mathrm {new}}}{b}\right)^{D/2}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\tag{10.223}$$

で近似されることを証明せよ。

ここで

$$B=\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{\nu_{n}}\tag{10.224}$$

である。

正誤表

PRML本文の修正については以下を参照。

PRML10章正誤表（10.7.1 例：雑音データ問題）

この記事では、「C.M.ビショップ『パターン認識と機械学習（下）ベイズ理論による統計的予測』（2012）丸善出版」（通称：PRML）における式の修正を行う。なお、筆者はPRMLは初版第10刷（2018）を用い、修正内容はを参考にした。 ...

解答

証明

以下のステップに沿って、４段階で証明を行う。

近似分布の平均を導出

$q^{\mathrm{new}}(\boldsymbol{\theta})$ の下での $\boldsymbol{\theta}$ の期待値 $\mathbb{E}[\boldsymbol{\theta}]$ を求め、 $q^{\mathrm{new}}(\boldsymbol{\theta})$ の平均 $\mathbf{m}^{\mathrm{new}}$ を導出する。

PRML10章演習10.39解答（その１：(10.217),(10.219)の導出）

問題、記号の意味、利用した式についてはを参照。目標 $q^{\mathrm{new}}(\boldsymbol{\theta})$ の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{...

近似分布の分散を導出

$q^{\mathrm{new}}(\boldsymbol{\theta})$ の下での $\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}$ の期待値が $\mathbb{E}[\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}]$ を求め、 $q^{\mathrm{new}}(\boldsymbol{\theta})$ の分散 $\nu^{\mathrm{new}}$ を導出する。

PRML10章演習10.39解答（その２：(10.218)の導出）

問題、記号の意味、利用した式についてはを参照。目標 $q^{\mathrm{new}}(\boldsymbol{\theta})$ の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{...

近似因子のパラメータを導出

改良された近似因子 $\tilde{f}_{n}(\boldsymbol{\theta})$ のパラメータを導出する。

PRML10章演習10.39解答（その３：(10.220)-(10.222)の導出）

問題、記号の意味、利用した式についてはを参照。目標改良された近似因子 $\tilde{f}_{n}(\boldsymbol{\theta})$ のパラメータが $$\nu_{n}^{-1}=(\nu^{\mathrm{new}})...

モデルエビデンスを近似

モデルエビデンス $p(\mathcal{D})$ を近似する。

PRML10章演習10.39解答（その４：(10.223),(10.224)の導出）

問題、記号の意味、利用した式についてはを参照。目標モデルエビデンスが $$p(\mathcal{D})\simeq\left(\frac{\nu^{\mathrm {new}}}{b}\right)^{D/2}\left\exp{\l...

証明に用いた式

$$\frac{1}{Z_{j}}f_{j}(\boldsymbol{\theta})q^{\backslash j}(\boldsymbol{\theta})\tag{10.196}$$

$$q(\boldsymbol{\theta})=\frac{1}{Z}\prod_{i}\tilde{f}_{i}(\boldsymbol{\theta})\tag{10.203}$$

$$Z_{j}=\int q^{\backslash j}(\boldsymbol{\theta})f_{j}(\boldsymbol{\theta})d\boldsymbol{\theta}\tag{10.206}$$

$$\tilde{f}_{j}(\boldsymbol{\theta})=Z_{j}\frac{q^{\mathrm{new}}(\boldsymbol{\theta})}{q^{\backslash j}(\boldsymbol{\theta})}\tag{10.207}$$

$$p(\mathcal{D})\simeq\int\prod_{i}\tilde{f}_{i}(\boldsymbol{\theta})d\boldsymbol{\theta}\tag{10.208}$$

$$p(\boldsymbol{\theta})=\mathcal{N}(\boldsymbol{\theta}|\mathbf{0},b\mathbf{I})\tag{10.210}$$

$$q(\boldsymbol{\theta})=\mathcal{N}(\boldsymbol{\theta}|\mathbf{m},\nu\mathbf{I})\tag{10.212}$$

$$\tilde{f}_{n}(\boldsymbol{\theta})=s_{n}\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})\tag{10.213}$$

$$Z_{n}=(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})+\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.216}$$