【PRML10章 演習10.39解答】EP法による事後分布の更新

機械学習・AI
Sponsored

問題

EP法により更新された近似分布 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) と分散 \(\nu^{\mathrm{new}}\) が

$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217}$$

$$\nu^{\mathrm{new}}=\nu^{\backslash n}-\rho_{n}\frac{(\nu^{\backslash n})^{2}}{\nu^{\backslash n}+1}+\rho_{n}(1-\rho_{n})\frac{(\nu^{\backslash n})^{2}||\mathbf{x}_n-\mathbf{m}^{\backslash n}||^{2}}{D(\nu^{\backslash n}+1)^{2}}\tag{10.218}$$

で表されることを示せ。

ただし

$$\rho_{n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219}$$

である。

その際、先に \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下で

$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244}$$

$$\mathbb{E}[\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}]=2(\nu^{\backslash n})^{2}\nabla_{\nu^{\backslash n}}\ln{Z_{n}}+2\mathbb{E}[\boldsymbol{\theta}]^{\mathrm{T}}\mathbf{m}^{\backslash n}-||\mathbf{m}^{\backslash n}||^{2}+\nu^{\backslash n}D\tag{10.245}$$

となることを証明せよ。

また、EP法により改良された近似因子 \(\tilde{f}_{n}(\boldsymbol{\theta})\) のパラメータが

$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220}$$

$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221}$$

$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222}$$

で与えられることを示せ。

最後に、モデルエビデンス \(p(\mathcal{D})\) が

$$p(\mathcal{D})\simeq\left(\frac{\nu^{\mathrm {new}}}{b}\right)^{D/2}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\tag{10.223}$$

で近似されることを証明せよ。

ここで

$$B=\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{\nu_{n}}\tag{10.224}$$

である。

正誤表

PRML本文の修正については以下を参照。

PRML10章正誤表(10.7.1 例:雑音データ問題)
この記事では、「C.M.ビショップ『パターン認識と機械学習(下)ベイズ理論による統計的予測』(2012)丸善出版」(通称:PRML)における式の修正を行う。 なお、筆者はPRMLは初版第10刷(2018)を用い、修正内容は を参考にした。 ...

解答

証明

以下のステップに沿って、4段階で証明を行う。

近似分布の平均を導出

\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下での \(\boldsymbol{\theta}\) の期待値 \(\mathbb{E}[\boldsymbol{\theta}]\) を求め、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) を導出する。

PRML10章 演習10.39解答(その1:(10.217),(10.219)の導出)
問題、記号の意味、利用した式については を参照。 目標 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{...

近似分布の分散を導出

\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下での \(\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}\) の期待値が \(\mathbb{E}[\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}]\) を求め、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の分散 \(\nu^{\mathrm{new}}\) を導出する。

PRML10章 演習10.39解答(その2:(10.218)の導出)
問題、記号の意味、利用した式については を参照。 目標 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{...

近似因子のパラメータを導出

改良された近似因子 \(\tilde{f}_{n}(\boldsymbol{\theta})\) のパラメータを導出する。

PRML10章 演習10.39解答(その3:(10.220)-(10.222)の導出)
問題、記号の意味、利用した式については を参照。 目標 改良された近似因子 \(\tilde{f}_{n}(\boldsymbol{\theta})\) のパラメータが $$\nu_{n}^{-1}=(\nu^{\mathrm{new}})...

モデルエビデンスを近似

モデルエビデンス \(p(\mathcal{D})\) を近似する。

PRML10章 演習10.39解答(その4:(10.223),(10.224)の導出)
問題、記号の意味、利用した式については を参照。 目標 モデルエビデンスが $$p(\mathcal{D})\simeq\left(\frac{\nu^{\mathrm {new}}}{b}\right)^{D/2}\left\exp{\l...

証明に用いた式

$$\frac{1}{Z_{j}}f_{j}(\boldsymbol{\theta})q^{\backslash j}(\boldsymbol{\theta})\tag{10.196}$$

$$q(\boldsymbol{\theta})=\frac{1}{Z}\prod_{i}\tilde{f}_{i}(\boldsymbol{\theta})\tag{10.203}$$

$$Z_{j}=\int q^{\backslash j}(\boldsymbol{\theta})f_{j}(\boldsymbol{\theta})d\boldsymbol{\theta}\tag{10.206}$$

$$\tilde{f}_{j}(\boldsymbol{\theta})=Z_{j}\frac{q^{\mathrm{new}}(\boldsymbol{\theta})}{q^{\backslash j}(\boldsymbol{\theta})}\tag{10.207}$$

$$p(\mathcal{D})\simeq\int\prod_{i}\tilde{f}_{i}(\boldsymbol{\theta})d\boldsymbol{\theta}\tag{10.208}$$

$$p(\boldsymbol{\theta})=\mathcal{N}(\boldsymbol{\theta}|\mathbf{0},b\mathbf{I})\tag{10.210}$$

$$q(\boldsymbol{\theta})=\mathcal{N}(\boldsymbol{\theta}|\mathbf{m},\nu\mathbf{I})\tag{10.212}$$

$$\tilde{f}_{n}(\boldsymbol{\theta})=s_{n}\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})\tag{10.213}$$

$$Z_{n}=(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})+\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.216}$$

Comments