PRML10章 演習10.39解答(その3:(10.220)-(10.222)の導出)

機械学習・AI
Sponsored

問題、記号の意味、利用した式については

【PRML10章 演習10.39解答】EP法による事後分布の更新
PRML10章 演習10.39の解答・解説。EP法によって更新した事後分布の平均と分散を導出する。それに際し、パラメータの期待値を計算する。その後近似因子のパラメータを求め、モデルエビデンスが近似される値を導く。

を参照。

目標

改良された近似因子 \(\tilde{f}_{n}(\boldsymbol{\theta})\) のパラメータが

$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220}$$

$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221}$$

$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222}$$

で与えられることを示せ。

なお、式 \((10.222)\) は本文上の誤植を修正したものである。

その他の訂正については

PRML10章正誤表(10.7.1 例:雑音データ問題)
この記事では、「C.M.ビショップ『パターン認識と機械学習(下)ベイズ理論による統計的予測』(2012)丸善出版」(通称:PRML)における式の修正を行う。 なお、筆者はPRMLは初版第10刷(2018)を用い、修正内容は を参考にした。 ...

を参照。

解答

\((10.207)\) に \(q^{\mathrm{new}}(\mathbf{\theta})=\mathcal{N}(\mathbf{\theta}|\mathbf{m}^{\mathrm{new}},\nu^{\mathrm{new}}\mathbf{I})\), \(q^{\backslash n}(\mathbf{\theta})=\mathcal{N}(\mathbf{\theta}|\mathbf{m}^{\backslash n},\nu^{\backslash n}\mathbf{I})\) を代入すると

$$\tilde{f}_{n}(\boldsymbol{\theta})=Z_{n}\left(\frac{\nu^{\backslash n}}{\nu^{\mathrm{new}}}\right)^{D/2}\exp{\left(-\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{\theta}-\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}^{\mathrm{new}})\right)}$$

$$+\frac{1}{2\nu^{\backslash n}}(\mathbf{\theta}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}^{\backslash n})\tag{1}$$

となる。

指数内部の \(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\) に依存する項を抜き出すと

$$-\frac{1}{2\nu^{\mathrm{new}}}\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}+\frac{1}{2\nu^{\backslash n}}\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}=-\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}-\frac{1}{\nu^{\backslash n}}\right)\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\tag{2}$$

であり、同様に \(\mathbf{\theta}^{\mathrm{T}}\) にのみ依存する項を抜き出すと

$$\frac{1}{2\nu^{\mathrm{new}}}\mathbf{\theta}^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}-\frac{1}{2\nu^{\backslash n}}\mathbf{\theta}^{\mathrm{T}}\mathbf{m}^{\backslash n}=\frac{1}{2}\mathbf{\theta}^{\mathrm{T}}\left(\frac{1}{\nu^{\mathrm{new}}}\mathbf{m}^{\mathrm{new}}-\frac{1}{\nu^{\backslash n}}\mathbf{m}^{\backslash n}\right)\tag{3}$$

となる。

ここで、指数内部が

$$-\frac{1}{2\nu_{n}}(\mathbf{\theta}-\mathbf{m}_{n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}_{n})=-\frac{1}{2\nu_{n}}(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}-\mathbf{\theta}^{\mathrm{T}}\mathbf{m}_{n}-\mathbf{m}_{n}^{\mathrm{T}}\mathbf{\theta}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n})$$

と平方完成されることを仮定すると、 \((2)\) と \(\mathbf{\theta}^{\mathrm{T}}\mathbf{\theta}\) の係数を比較して

$$-\frac{1}{2\nu_{n}}=-\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}-\frac{1}{\nu^{\backslash n}}\right)$$

$$\nu_{n}^{-1}=(\nu^{\mathrm{new}})^{-1}-(\nu^{\backslash n})^{-1}\tag{10.220☆}$$

を得る。

同様に、 \((3)\) と \(\mathbf{\theta}^{\mathrm{T}}\) の係数を比較して

$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}=\frac{1}{2}\left(\frac{1}{\nu^{\mathrm{new}}}\mathbf{m}^{\mathrm{new}}-\frac{1}{\nu^{\backslash n}}\mathbf{m}^{\backslash n}\right)$$

$$\nu_{n}^{-1}\mathbf{m}_{n}=(\nu^{\mathrm{new}})^{-1}\mathbf{m}^{\mathrm{new}}-(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}\tag{4}$$

$$\nu_{n}^{-1}\mathbf{m}_{n}=(\nu_{n}^{-1}+(\nu^{\backslash n})^{-1})\mathbf{m}^{\mathrm{new}}-(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}$$

$$\nu^{\backslash n}\mathbf{m}_{n}=(\nu_{n}+\nu^{\backslash n})\mathbf{m}^{\mathrm{new}}-\nu_{n}\mathbf{m}^{\backslash n}\quad(\ldots\times\nu_{n}\nu^{\backslash n})$$

$$\nu^{\backslash n}\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})$$

$$\mathbf{m}_{n}=\mathbf{m}^{\backslash n}+(\nu_{n}+\nu^{\backslash n})(\nu^{\backslash n})^{-1}(\mathbf{m}^{\mathrm{new}}-\mathbf{m}^{\backslash n})\tag{10.221☆}$$

を得る。

ここで、 \((10.220)\) の結果を用いた。

以上の平方完成の結果、指数内部で平方完成の外部に置かれた項は以下のようになる。

$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}-\frac{1}{2\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\tag{5}$$

ここで、 \((10.220)\) より

$$(\nu^{\mathrm{new}})^{-1}=\nu_{n}^{-1}+(\nu^{\backslash n})^{-1}$$

$$\nu^{\mathrm{new}}=\frac{\nu_{n}\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}$$

また、 \((10.221)\) を導出する途中の式 \((4)\) より

$$(\nu^{\mathrm{new}})^{-1}\mathbf{m}^{\mathrm{new}}=\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n}$$

が得られ、これらを用いて式 \((5)\) の \(\mathbf{m}^{\mathrm{new}}, \nu^{\mathrm{new}}\) に依存する項を書き換えると

$$\frac{1}{2\nu^{\mathrm{new}}}(\mathbf{m}^{\mathrm{new}})^{\mathrm{T}}\mathbf{m}^{\mathrm{new}}=\frac{1}{2}\nu^{\mathrm{new}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})^{\mathrm{T}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})$$

$$=\frac{1}{2}\nu^{\mathrm{new}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})^{\mathrm{T}}(\nu_{n}^{-1}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\mathbf{m}^{\backslash n})$$

$$=\frac{1}{2}\nu^{\mathrm{new}}\left(\nu_{n}^{-2}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-2}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$

$$=\frac{1}{2}\frac{\nu_{n}\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}\left(\nu_{n}^{-2}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+\nu_{n}^{-1}(\nu^{\backslash n})^{-1}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-2}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$

$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\frac{\nu^{\backslash n}}{\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+\frac{\nu_{n}}{\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$

より、この結果を式 \((5)\) に代入すると

$$\frac{1}{2\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\frac{\nu^{\backslash n}}{\nu_{n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}+\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+\frac{\nu_{n}}{\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)-\frac{1}{2\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}$$

$$=\frac{1}{2}\left\{\nu_{n}^{-1}\left(1-\frac{\nu^{\backslash n}}{\nu_{n}+\nu^{\backslash n}}\right)\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\frac{1}{\nu_{n}+\nu^{\backslash n}}\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}-\frac{1}{\nu_{n}+\nu^{\backslash n}}(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\nu^{\backslash n})^{-1}\left(1-\frac{\nu_{n}}{\nu_{n}+\nu^{\backslash n}}\right)(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right\}$$

$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}\left(\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}_{n}-\mathbf{m}_{n}^{\mathrm{T}}\mathbf{m}^{\backslash n}-(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}_{n}+(\mathbf{m}^{\backslash n})^{\mathrm{T}}\mathbf{m}^{\backslash n}\right)$$

$$=\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})$$

を得る。

以上の指数内部の平方完成のそれぞれは、

$$\exp{\left(-\frac{1}{2\nu_{n}}(\mathbf{\theta}-\mathbf{m}_{n})^{\mathrm{T}}(\mathbf{\theta}-\mathbf{m}_{n})\right)}=(2\pi\nu_{n})^{D/2}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})$$

$$\exp{\left(\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})\right)}=\frac{1}{\exp{\left(\frac{1}{2(\nu_{n}+\nu^{\backslash n})}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})^{\mathrm{T}}(\mathbf{m}_{n}-\mathbf{m}^{\backslash n})\right)}}=\frac{1}{\left(2\pi(\nu_{n}+\nu^{\backslash n})\right)^{D/2}\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$

と、正規分布関数を使って表現できる。

したがって、これを式 \((1)\) に代入して正規化定数 \(s_{n}\) について考えると

$$\tilde{f}_{n}(\boldsymbol{\theta})=Z_{n}\left(\frac{\nu^{\backslash n}}{\nu^{\mathrm{new}}}\right)^{D/2}\frac{(2\pi\nu_{n})^{D/2}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\left(2\pi(\nu_{n}+\nu^{\backslash n})\right)^{D/2}\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$

$$=Z_{n}\left(\frac{\nu_{n}\nu^{\backslash n}}{(\nu_{n}+\nu^{\backslash n})\nu^{\mathrm{new}}}\right)^{D/2}\frac{\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$

$$=Z_{n}\left(\frac{\nu_{n}\nu^{\backslash n}}{(\nu_{n}+\nu^{\backslash n})}\frac{(\nu_{n}+\nu^{\backslash n})}{\nu_{n}\nu^{\backslash n}}\right)^{D/2}\frac{\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}$$

$$=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})=s_{n}\mathcal{N}(\mathbf{\theta}|\mathbf{m}_{n},\nu_{n}\mathbf{I})$$

より

$$s_{n}=\frac{Z_{n}}{\mathcal{N}(\mathbf{m}_{n}|\mathbf{m}^{\backslash n},(\nu_{n}+\nu^{\backslash n})\mathbf{I})}\tag{10.222☆}$$

を得る。

つづき↓

PRML10章 演習10.39解答(その4:(10.223),(10.224)の導出)
問題、記号の意味、利用した式については を参照。 目標 モデルエビデンスが $$p(\mathcal{D})\simeq\left(\frac{\nu^{\mathrm {new}}}{b}\right)^{D/2}\left\exp{\l...

Comments