問題、記号の意味、利用した式については

を参照。
目標
改良された近似因子 \(\tilde{f}_{n}(\boldsymbol{\theta})\) のパラメータが
$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220}$$
$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221}$$
$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222}$$
で与えられることを示せ。
なお、式 \((10.222)\) は本文上の誤植を修正したものである。
その他の訂正については


を参照。
解答
\((10.207)\) に \(q^{\mathrm{new}}(\mathbf{\theta})=\mathcal{N}(\mathbf{\theta}|\mathbf{m}^{\mathrm{new}},\nu^{\mathrm{new}}\mathbf{I})\), \(q^{\backslash n}(\mathbf{\theta})=\mathcal{N}(\mathbf{\theta}|\mathbf{m}^{\backslash n},\nu^{\backslash n}\mathbf{I})\) を代入すると
$$\tilde{f}_{n}(\boldsymbol{\theta})=Z_{n}\left(\frac{\nu^{\backslash n}}{\nu^{\mathrm{new}}}\right)^{D/2}\exp{\left(-\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{\theta}-\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}^{\mathrm{new}})\right)}$$
$$+\frac{1}{2\nu^{\backslash n}}(\mathbf{\theta}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}^{\backslash n})\tag{1}$$
となる。
指数内部の \(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\) に依存する項を抜き出すと
$$-\frac{1}{2\nu^{\mathrm{new}}}\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}+\frac{1}{2\nu^{\backslash n}}\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}=-\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}-\frac{1}{\nu^{\backslash n}}\right)\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\tag{2}$$
であり、同様に \(\mathbf{\theta}^{\mathrm{T}}\) にのみ依存する項を抜き出すと
$$\frac{1}{2\nu^{\mathrm{new}}}\mathbf{\theta}^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}-\frac{1}{2\nu^{\backslash n}}\mathbf{\theta}^{\mathrm{T}}\mathbf{m}^{\backslash n}=\frac{1}{2}\mathbf{\theta}^{\mathrm{T}}\left(\frac{1}{\nu^{\mathrm{new}}}\mathbf{m}^{\mathrm{new}}-\frac{1}{\nu^{\backslash n}}\mathbf{m}^{\backslash n}\right)\tag{3}$$
となる。
ここで、指数内部が
$$-\frac{1}{2\nu_{n}}(\mathbf{\theta}-\mathbf{m}_{n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}_{n})=-\frac{1}{2\nu_{n}}(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}-\mathbf{\theta}^{\mathrm{T}}\mathbf{m}_{n}-\mathbf{m}_{n}^{\mathrm{T}}\mathbf{\theta}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n})$$
と平方完成されることを仮定すると、 \((2)\) と \(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\) の係数を比較して
$$-\frac{1}{2\nu_{n}}=-\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}-\frac{1}{\nu^{\backslash n}}\right)$$
$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220☆}$$
を得る。
同様に、 \((3)\) と \(\mathbf{\theta}^{\mathrm{T}}\) の係数を比較して
$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}=\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}\mathbf{m}^{\mathrm{new}}-\frac{1}{\nu^{\backslash n}}\mathbf{m}^{\backslash n}\right)$$
$$\nu_{n}^{-1}\mathbf{m}_{n}=(\nu^{\mathrm{new}})^{-1}\mathbf{m}^{\mathrm{new}}-(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}\tag{4}$$
$$\nu_{n}^{-1}\mathbf{m}_{n}=(\nu_{n}^{-1}+(\nu^{\backslash n})^{-1})\mathbf{m}^{\mathrm{new}}-(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}$$
$$\nu^{\backslash n}\mathbf{m}_{n}=(\nu_{n}+\nu^{\backslash n})\mathbf{m}^{\mathrm{new}}-\nu_{n}\mathbf{m}^{\backslash n}\quad(\ldots\times\nu_{n}\nu^{\backslash n})$$
$$\nu^{\backslash n}\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})$$
$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221☆}$$
を得る。
ここで、 \((10.220)\) の結果を用いた。
以上の平方完成の結果、指数内部で平方完成の外部に置かれた項は以下のようになる。
$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}-\frac{1}{2\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\tag{5}$$
ここで、 \((10.220)\) より
$$(\nu^{\mathrm{new}})^{-1}=\nu_{n}^{-1}+(\nu^{\backslash n})^{-1}$$
$$\nu^{\mathrm{new}}=\frac{\nu_{n}\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}$$
また、 \((10.221)\) を導出する途中の式 \((4)\) より
$$(\nu^{\mathrm{new}})^{-1}\mathbf{m}^{\mathrm{new}}=\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}$$
が得られ、これらを用いて式 \((5)\) の \(\mathbf{m}^{\mathrm{new}}, \nu^{\mathrm{new}}\) に依存する項を書き換えると
$$\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}=\frac{1}{2}\nu^{\mathrm{new}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})^{\mathrm{T}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})$$
$$=\frac{1}{2}\nu^{\mathrm{new}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})^{\mathrm{T}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})$$
$$=\frac{1}{2}\nu^{\mathrm{new}}\left(\nu_{n}^{-2}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-2}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$
$$=\frac{1}{2}\frac{\nu_{n}\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}\left(\nu_{n}^{-2}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-2}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$
$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\frac{\nu^{\backslash n}}{\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+\frac{\nu_{n}}{\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$
より、この結果を式 \((5)\) に代入すると
$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\frac{\nu^{\backslash n}}{\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+\frac{\nu_{n}}{\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)-\frac{1}{2\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}$$
$$=\frac{1}{2}\left\{\nu_{n}^{-1}\left(1-\frac{\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}\right)\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{\nu_{n}+\nu^{\backslash n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}-\frac{1}{\nu_{n}+\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\left(1-\frac{\nu_{n}}{\nu_{n}+\nu^{\backslash n}}\right)(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right\}$$
$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}-(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$
$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})$$
を得る。
以上の指数内部の平方完成のそれぞれは、
$$\exp{\left(-\frac{1}{2\nu_{n}}(\mathbf{\theta}-\mathbf{m}_{n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}_{n})\right)}=(2\pi\nu_{n})^{D/2}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})$$
$$\exp{\left(\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})\right)}=\frac{1}{\exp{\left(\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})\right)}}=\frac{1}{\left(2\pi(\nu_{n}+\nu^{\backslash n})\right)^{D/2}\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$
と、正規分布関数を使って表現できる。
したがって、これを式 \((1)\) に代入して正規化定数 \(s_{n}\) について考えると
$$\tilde{f}_{n}(\boldsymbol{\theta})=Z_{n}\left(\frac{\nu^{\backslash n}}{\nu^{\mathrm{new}}}\right)^{D/2}\frac{(2\pi\nu_{n})^{D/2}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\left(2\pi(\nu_{n}+\nu^{\backslash n})\right)^{D/2}\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$
$$=Z_{n}\left(\frac{\nu_{n}\nu^{\backslash n}}{(\nu_{n}+\nu^{\backslash n})\nu^{\mathrm{new}}}\right)^{D/2}\frac{\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$
$$=Z_{n}\left(\frac{\nu_{n}\nu^{\backslash n}}{(\nu_{n}+\nu^{\backslash n})}\frac{(\nu_{n}+\nu^{\backslash n})}{\nu_{n}\nu^{\backslash n}}\right)^{D/2}\frac{\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$
$$=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})=s_{n}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})$$
より
$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222☆}$$
を得る。
つづき↓


コメント