スポンサーリンク

PRML10章 演習10.39解答(その3:(10.220)-(10.222)の導出)

自然科学

問題、記号の意味、利用した式については

PRML10章 演習10.39解答
問題EP法により更新された近似分布 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) と分散 \(\nu^{\mathrm{n...

を参照。

目標

改良された近似因子 \(\tilde{f}_{n}(\boldsymbol{\theta})\) のパラメータが

$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220}$$
$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221}$$
$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222}$$

で与えられることを示せ。

なお、式 \((10.222)\) は本文上の誤植を修正したものである。その他の訂正については

を参照。

解答

\((10.207)\) に \(q^{\mathrm{new}}(\mathbf{\theta})=\mathcal{N}(\mathbf{\theta}|\mathbf{m}^{\mathrm{new}},\nu^{\mathrm{new}}\mathbf{I})\), \(q^{\backslash n}(\mathbf{\theta})=\mathcal{N}(\mathbf{\theta}|\mathbf{m}^{\backslash n},\nu^{\backslash n}\mathbf{I})\) を代入すると

$$\tilde{f}_{n}(\boldsymbol{\theta})=Z_{n}\left(\frac{\nu^{\backslash n}}{\nu^{\mathrm{new}}}\right)^{D/2}\exp{\left(-\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{\theta}-\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}^{\mathrm{new}})\right)+\frac{1}{2\nu^{\backslash n}}(\mathbf{\theta}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}^{\backslash n})}\tag{1}$$

となる。指数内部の \(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\) に依存する項を抜き出すと

$$-\frac{1}{2\nu^{\mathrm{new}}}\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}+\frac{1}{2\nu^{\backslash n}}\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}=-\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}-\frac{1}{\nu^{\backslash n}}\right)\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\tag{2}$$

であり、同様に \(\mathbf{\theta}^{\mathrm{T}}\) にのみ依存する項を抜き出すと

$$\frac{1}{2\nu^{\mathrm{new}}}\mathbf{\theta}^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}-\frac{1}{2\nu^{\backslash n}}\mathbf{\theta}^{\mathrm{T}}\mathbf{m}^{\backslash n}=\frac{1}{2}\mathbf{\theta}^{\mathrm{T}}\left(\frac{1}{\nu^{\mathrm{new}}}\mathbf{m}^{\mathrm{new}}-\frac{1}{\nu^{\backslash n}}\mathbf{m}^{\backslash n}\right)\tag{3}$$

となる。ここで、指数内部が

$$-\frac{1}{2\nu_{n}}(\mathbf{\theta}-\mathbf{m}_{n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}_{n})=-\frac{1}{2\nu_{n}}(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}-\mathbf{\theta}^{\mathrm{T}}\mathbf{m}_{n}-\mathbf{m}_{n}^{\mathrm{T}}\mathbf{\theta}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n})$$

と平方完成されることを仮定すると、\((2)\) と \(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\) の係数を比較して

$$-\frac{1}{2\nu_{n}}=-\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}-\frac{1}{\nu^{\backslash n}}\right)$$
$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220☆}$$

を得る。同様に、\((3)\) と \(\mathbf{\theta}^{\mathrm{T}}\) の係数を比較して

$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}=\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}\mathbf{m}^{\mathrm{new}}-\frac{1}{\nu^{\backslash n}}\mathbf{m}^{\backslash n}\right)$$
$$\nu_{n}^{-1}\mathbf{m}_{n}=(\nu^{\mathrm{new}})^{-1}\mathbf{m}^{\mathrm{new}}-(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}\tag{4}$$
$$\nu_{n}^{-1}\mathbf{m}_{n}=(\nu_{n}^{-1}+(\nu^{\backslash n})^{-1})\mathbf{m}^{\mathrm{new}}-(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}$$
$$\nu^{\backslash n}\mathbf{m}_{n}=(\nu_{n}+\nu^{\backslash n})\mathbf{m}^{\mathrm{new}}-\nu_{n}\mathbf{m}^{\backslash n}\quad(\ldots\times\nu_{n}\nu^{\backslash n})$$
$$\nu^{\backslash n}\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})$$
$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221☆}$$

を得る。ここで、\((10.220)\) の結果を用いた。

以上の平方完成の結果、指数内部で平方完成の外部に置かれた項は以下のようになる。

$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}-\frac{1}{2\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\tag{5}$$

ここで、\((10.220)\) より

$$(\nu^{\mathrm{new}})^{-1}=\nu_{n}^{-1}+(\nu^{\backslash n})^{-1}$$
$$\nu^{\mathrm{new}}=\frac{\nu_{n}\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}$$

また、\((10.221)\) を導出する途中の式 \((4)\) より

$$(\nu^{\mathrm{new}})^{-1}\mathbf{m}^{\mathrm{new}}=\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}$$

が得られ、これらを用いて式 \((5)\) の \(\mathbf{m}^{\mathrm{new}}, \nu^{\mathrm{new}}\) に依存する項を書き換えると

$$\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}=\frac{1}{2}\nu^{\mathrm{new}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})^{\mathrm{T}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})$$
$$=\frac{1}{2}\nu^{\mathrm{new}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})^{\mathrm{T}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})$$
$$=\frac{1}{2}\nu^{\mathrm{new}}\left(\nu_{n}^{-2}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-2}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$
$$=\frac{1}{2}\frac{\nu_{n}\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}\left(\nu_{n}^{-2}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-2}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$
$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\frac{\nu^{\backslash n}}{\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+\frac{\nu_{n}}{\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$

より、この結果を式 \((5)\) に代入すると

$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\frac{\nu^{\backslash n}}{\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+\frac{\nu_{n}}{\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)-\frac{1}{2\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}$$
$$=\frac{1}{2}\left\{\nu_{n}^{-1}\left(1-\frac{\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}\right)\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{\nu_{n}+\nu^{\backslash n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}-\frac{1}{\nu_{n}+\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\left(1-\frac{\nu_{n}}{\nu_{n}+\nu^{\backslash n}}\right)(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right\}$$
$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}-(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$
$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})$$

を得る。以上の指数内部の平方完成のそれぞれは、

$$\exp{\left(-\frac{1}{2\nu_{n}}(\mathbf{\theta}-\mathbf{m}_{n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}_{n})\right)}=(2\pi\nu_{n})^{D/2}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})$$

$$\exp{\left(\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})\right)}=\frac{1}{\exp{\left(\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})\right)}}=\frac{1}{\left(2\pi(\nu_{n}+\nu^{\backslash n})\right)^{D/2}\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$

と、正規分布関数を使って表現できる。したがって、これを式 \((1)\) に代入して正規化定数 \(s_{n}\) について考えると

$$\tilde{f}_{n}(\boldsymbol{\theta})=Z_{n}\left(\frac{\nu^{\backslash n}}{\nu^{\mathrm{new}}}\right)^{D/2}\frac{(2\pi\nu_{n})^{D/2}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\left(2\pi(\nu_{n}+\nu^{\backslash n})\right)^{D/2}\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$
$$=Z_{n}\left(\frac{\nu_{n}\nu^{\backslash n}}{(\nu_{n}+\nu^{\backslash n})\nu^{\mathrm{new}}}\right)^{D/2}\frac{\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$
$$=Z_{n}\left(\frac{\nu_{n}\nu^{\backslash n}}{(\nu_{n}+\nu^{\backslash n})}\frac{(\nu_{n}+\nu^{\backslash n})}{\nu_{n}\nu^{\backslash n}}\right)^{D/2}\frac{\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$
$$=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})=s_{n}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})$$

より

$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222☆}$$

を得る。

つづき↓

PRML10章 演習10.39解答(その4:(10.223),(10.224)の導出)
問題、記号の意味、利用した式についてはを参照。目標モデルエビデンスがで近似できることを示せ。ただしである。解答\((10.208)\) よりである。こ...

コメント