問題
EP法により更新された近似分布 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) と分散 \(\nu^{\mathrm{new}}\) が
$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217}$$
$$\nu^{\mathrm{new}}=\nu^{\backslash n}-\rho_{n}\frac{(\nu^{\backslash n})^{2}}{\nu^{\backslash n}+1}+\rho_{n}(1-\rho_{n})\frac{(\nu^{\backslash n})^{2}||\mathbf{x}_n-\mathbf{m}^{\backslash n}||^{2}}{D(\nu^{\backslash n}+1)^{2}}\tag{10.218}$$
で表されることを示せ。
ただし
$$\rho_{n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219}$$
である。
その際、先に \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下で
$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244}$$
$$\mathbb{E}[\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}]=2(\nu^{\backslash n})^{2}\nabla_{\nu^{\backslash n}}\ln{Z_{n}}+2\mathbb{E}[\boldsymbol{\theta}]^{\mathrm{T}}\mathbf{m}^{\backslash n}-||\mathbf{m}^{\backslash n}||^{2}+\nu^{\backslash n}D\tag{10.245}$$
となることを証明せよ。
また、EP法により改良された近似因子 \(\tilde{f}_{n}(\boldsymbol{\theta})\) のパラメータが
$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220}$$
$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221}$$
$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222}$$
で与えられることを示せ。
最後に、モデルエビデンス \(p(\mathcal{D})\) が
$$p(\mathcal{D})\simeq\left(\frac{\nu^{\mathrm {new}}}{b}\right)^{D/2}\left[\prod_{n=1}^{N}\frac{s_{n}}{(2\pi\nu_{n})^{D/2}}\right]\exp{\left(\frac{B}{2}\right)}\tag{10.223}$$
で近似されることを証明せよ。
ここで
$$B=\frac{(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}}{\nu^{\mathrm{new}}}-\sum_{n=1}^{N}\frac{\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}}{\nu_{n}}\tag{10.224}$$
である。
正誤表
PRML本文の修正については以下を参照。
解答
証明
以下のステップに沿って、4段階で証明を行う。
近似分布の平均を導出
\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下での \(\boldsymbol{\theta}\) の期待値 \(\mathbb{E}[\boldsymbol{\theta}]\) を求め、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) を導出する。
近似分布の分散を導出
\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下での \(\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}\) の期待値が \(\mathbb{E}[\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}]\) を求め、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の分散 \(\nu^{\mathrm{new}}\) を導出する。
近似因子のパラメータを導出
改良された近似因子 \(\tilde{f}_{n}(\boldsymbol{\theta})\) のパラメータを導出する。
モデルエビデンスを近似
モデルエビデンス \(p(\mathcal{D})\) を近似する。
証明に用いた式
$$\frac{1}{Z_{j}}f_{j}(\boldsymbol{\theta})q^{\backslash j}(\boldsymbol{\theta})\tag{10.196}$$
$$q(\boldsymbol{\theta})=\frac{1}{Z}\prod_{i}\tilde{f}_{i}(\boldsymbol{\theta})\tag{10.203}$$
$$Z_{j}=\int q^{\backslash j}(\boldsymbol{\theta})f_{j}(\boldsymbol{\theta})d\boldsymbol{\theta}\tag{10.206}$$
$$\tilde{f}_{j}(\boldsymbol{\theta})=Z_{j}\frac{q^{\mathrm{new}}(\boldsymbol{\theta})}{q^{\backslash j}(\boldsymbol{\theta})}\tag{10.207}$$
$$p(\mathcal{D})\simeq\int\prod_{i}\tilde{f}_{i}(\boldsymbol{\theta})d\boldsymbol{\theta}\tag{10.208}$$
$$p(\boldsymbol{\theta})=\mathcal{N}(\boldsymbol{\theta}|\mathbf{0},b\mathbf{I})\tag{10.210}$$
$$q(\boldsymbol{\theta})=\mathcal{N}(\boldsymbol{\theta}|\mathbf{m},\nu\mathbf{I})\tag{10.212}$$
$$\tilde{f}_{n}(\boldsymbol{\theta})=s_{n}\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})\tag{10.213}$$
$$Z_{n}=(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})+\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.216}$$
Comments