スポンサーリンク

PRML10章 演習10.39解答(その1:(10.217),(10.219)の導出)

自然科学

問題、記号の意味、利用した式については

PRML10章 演習10.39解答
問題EP法により更新された近似分布 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) と分散 \(\nu^{\mathrm{n...

を参照。

目標

\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})\) のものと一致させたとき、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下での \(\boldsymbol{\theta}\) の期待値が

$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244}$$

となることを証明し、\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) が

$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217}$$

となることを示す。ここで

$$\rho_{n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219}$$

解答

\((10.206), q^{\backslash n}(\boldsymbol{\theta})=\mathcal{N}(\mathbf{m}^{\backslash n},\nu^{\backslash n}\mathbf{I})\) を代入して微分を計算すると

$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}Z_{n}$$
$$=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}\int q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}=\frac{1}{Z_{n}}\int\left(\nabla_{\mathbf{m}^{\backslash n}}q^{\backslash n}(\boldsymbol{\theta})\right)f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$
$$=\frac{1}{Z_{n}}\int\left(\frac{\boldsymbol{\theta}-\mathbf{m}^{\backslash n}}{\nu^{\backslash n}}\right)q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$
$$=\frac{1}{\nu^{\backslash n}}\int(\boldsymbol{\theta}-\mathbf{m}^{\backslash n})\frac{1}{Z_{n}}q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$

を得る。ここで2→3行目の変形において

多次元ガウス分布の平均と分散による微分
前提この記事では、多次元ガウス分布の各パラメータ \(\boldsymbol{\mu},a\) による微分を導出する。なお、ここでは上式のように、当方的な共分散行列を仮定し、\(\mathbf{I}\) は単位...

の結果を用いた。

被積分関数の第1項の積分は、分布 \((10.196)\) に対する \(\boldsymbol{\theta}\) の期待値を表し、第2項に対する積分は \(\mathbf{m}^{\backslash n}\) が定数なので、分布のみ正規化される。すなわち

$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{\nu^{\backslash n}}\left(\mathbb{E}[\boldsymbol{\theta}]-\mathbf{m}^{\backslash n}\right)$$

となる。これを変形して

$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244☆}$$

を得る。

また、\(\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\) は \((10.206)\) ではなく \((10.216)\) を代入することによっても計算できる。

$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}Z_{n}$$
$$=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}\left\{(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})+\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\right\}$$
$$=\frac{1}{Z_{n}}(1-\omega)\left(\frac{\mathbf{x}_{n}-\mathbf{m}^{\backslash n}}{\nu^{\backslash n}+1}\right)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$
$$=\rho_{n}\frac{1}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{1}$$

2→3行目の変形でも、多次元ガウス分布の平均と分散による微分の結果を、第1項のみが \(\mathbf{m}^{\backslash n}\) に依存することと共に用いた。また

$$\rho_{n}=\frac{1}{Z_{n}}(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$

と置いた。ここで

$$\alpha_n=(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$
$$\beta_n=\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})$$

と置くと、\(Z_{n}=\alpha_n+\beta_n\) であり、

$$\rho_{n}=\frac{\alpha_n}{\alpha_n+\beta_n}=\frac{\alpha_n+\beta_n-\beta_n}{\alpha_n+\beta_n}$$
$$=1-\frac{\beta_n}{\alpha_n+\beta_n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219☆}$$

式 \((10.244), (1)\) は等価であることから

$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})$$

が得られるが、\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})\) のものと一致させたとき、\(\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\mathrm{new}}\) であり

$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217☆}$$

を得る。

つづき↓

PRML10章 演習10.39解答(その2:(10.218)の導出)
問題、記号の意味、利用した式についてはを参照。目標\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsy...

コメント