PRML10章 演習10.39解答(その1:(10.217),(10.219)の導出)

機械学習・AI
Sponsored

問題、記号の意味、利用した式については

【PRML10章 演習10.39解答】EP法による事後分布の更新
PRML10章 演習10.39の解答・解説。EP法によって更新した事後分布の平均と分散を導出する。それに際し、パラメータの期待値を計算する。その後近似因子のパラメータを求め、モデルエビデンスが近似される値を導く。

を参照。

目標

\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})\) のものと一致させたとき、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下での \(\boldsymbol{\theta}\) の期待値が

$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244}$$

となることを証明し、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) が

$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217}$$

となることを示す。

ここで

$$\rho_{n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219}$$

解答

\((10.206), q^{\backslash n}(\boldsymbol{\theta})=\mathcal{N}(\mathbf{m}^{\backslash n},\nu^{\backslash n}\mathbf{I})\) を代入して微分を計算すると

$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}Z_{n}$$

$$=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}\int q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}=\frac{1}{Z_{n}}\int\left(\nabla_{\mathbf{m}^{\backslash n}}q^{\backslash n}(\boldsymbol{\theta})\right)f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$

$$=\frac{1}{Z_{n}}\int\left(\frac{\boldsymbol{\theta}-\mathbf{m}^{\backslash n}}{\nu^{\backslash n}}\right)q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$

$$=\frac{1}{\nu^{\backslash n}}\int(\boldsymbol{\theta}-\mathbf{m}^{\backslash n})\frac{1}{Z_{n}}q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$

を得る。

ここで2→3行目の変形において

多次元ガウス分布の平均と分散による微分
前提 この記事では、多次元ガウス分布 の各パラメータ \(\boldsymbol{\mu},a\) による微分を導出する。 なお、ここでは上式のように、当方的な共分散行列を仮定し、\(\mathbf{I}\) は単位行列である。 結論 平均...

の結果を用いた。

被積分関数の第1項の積分は、分布 \((10.196)\) に対する \(\boldsymbol{\theta}\) の期待値を表し、第2項に対する積分は \(\mathbf{m}^{\backslash n}\) が定数なので、分布のみ正規化される。

すなわち

$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{\nu^{\backslash n}}\left(\mathbb{E}[\boldsymbol{\theta}]-\mathbf{m}^{\backslash n}\right)$$

となる。

これを変形して

$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244☆}$$

を得る。

また、 \(\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\) は \((10.206)\) ではなく \((10.216)\) を代入することによっても計算できる。

$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}Z_{n}$$

$$=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}\left\{(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})+\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\right\}$$

$$=\frac{1}{Z_{n}}(1-\omega)\left(\frac{\mathbf{x}_{n}-\mathbf{m}^{\backslash n}}{\nu^{\backslash n}+1}\right)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$

$$=\rho_{n}\frac{1}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{1}$$

2→3行目の変形でも、多次元ガウス分布の平均と分散による微分の結果を、第1項のみが \(\mathbf{m}^{\backslash n}\) に依存することと共に用いた。

また

$$\rho_{n}=\frac{1}{Z_{n}}(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$

と置いた。

ここで

$$\alpha_n=(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$

$$\beta_n=\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})$$

と置くと、 \(_{n}=\alpha_n+\beta_n\) であり、

$$\rho_{n}=\frac{\alpha_n}{\alpha_n+\beta_n}=\frac{\alpha_n+\beta_n-\beta_n}{\alpha_n+\beta_n}$$

$$=1-\frac{\beta_n}{\alpha_n+\beta_n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219☆}$$

式 \((10.244), (1)\) は等価であることから

$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})$$

が得られるが、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})\) のものと一致させたとき、 \(\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\mathrm{new}}\) であり

$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217☆}$$

を得る。

つづき↓

PRML10章 演習10.39解答(その2:(10.218)の導出)
問題、記号の意味、利用した式については を参照。 目標 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{...

Comments