問題、記号の意味、利用した式については
を参照。
目標
\(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})\) のものと一致させたとき、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の下での \(\boldsymbol{\theta}\) の期待値が
$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244}$$
となることを証明し、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均 \(\mathbf{m}^{\mathrm{new}}\) が
$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217}$$
となることを示す。
ここで
$$\rho_{n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219}$$
解答
\((10.206), q^{\backslash n}(\boldsymbol{\theta})=\mathcal{N}(\mathbf{m}^{\backslash n},\nu^{\backslash n}\mathbf{I})\) を代入して微分を計算すると
$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}Z_{n}$$
$$=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}\int q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}=\frac{1}{Z_{n}}\int\left(\nabla_{\mathbf{m}^{\backslash n}}q^{\backslash n}(\boldsymbol{\theta})\right)f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$
$$=\frac{1}{Z_{n}}\int\left(\frac{\boldsymbol{\theta}-\mathbf{m}^{\backslash n}}{\nu^{\backslash n}}\right)q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$
$$=\frac{1}{\nu^{\backslash n}}\int(\boldsymbol{\theta}-\mathbf{m}^{\backslash n})\frac{1}{Z_{n}}q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})d\boldsymbol{\theta}$$
を得る。
ここで2→3行目の変形において
の結果を用いた。
被積分関数の第1項の積分は、分布 \((10.196)\) に対する \(\boldsymbol{\theta}\) の期待値を表し、第2項に対する積分は \(\mathbf{m}^{\backslash n}\) が定数なので、分布のみ正規化される。
すなわち
$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{\nu^{\backslash n}}\left(\mathbb{E}[\boldsymbol{\theta}]-\mathbf{m}^{\backslash n}\right)$$
となる。
これを変形して
$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\nu^{\backslash n}\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\tag{10.244☆}$$
を得る。
また、 \(\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}\) は \((10.206)\) ではなく \((10.216)\) を代入することによっても計算できる。
$$\nabla_{\mathbf{m}^{\backslash n}}\ln{Z_{n}}=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}Z_{n}$$
$$=\frac{1}{Z_{n}}\nabla_{\mathbf{m}^{\backslash n}}\left\{(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})+\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\right\}$$
$$=\frac{1}{Z_{n}}(1-\omega)\left(\frac{\mathbf{x}_{n}-\mathbf{m}^{\backslash n}}{\nu^{\backslash n}+1}\right)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$
$$=\rho_{n}\frac{1}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{1}$$
2→3行目の変形でも、多次元ガウス分布の平均と分散による微分の結果を、第1項のみが \(\mathbf{m}^{\backslash n}\) に依存することと共に用いた。
また
$$\rho_{n}=\frac{1}{Z_{n}}(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$
と置いた。
ここで
$$\alpha_n=(1-\omega)\mathcal{N}(\mathbf{x}_{n}|\mathbf{m}^{\backslash n},(\nu^{\backslash n}+1)\mathbf{I})$$
$$\beta_n=\omega\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})$$
と置くと、 \(_{n}=\alpha_n+\beta_n\) であり、
$$\rho_{n}=\frac{\alpha_n}{\alpha_n+\beta_n}=\frac{\alpha_n+\beta_n-\beta_n}{\alpha_n+\beta_n}$$
$$=1-\frac{\beta_n}{\alpha_n+\beta_n}=1-\frac{\omega}{Z_{n}}\mathcal{N}(\mathbf{x}_{n}|\mathbf{0},a\mathbf{I})\tag{10.219☆}$$
式 \((10.244), (1)\) は等価であることから
$$\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})$$
が得られるが、 \(q^{\mathrm{new}}(\boldsymbol{\theta})\) の平均と分散を \(q^{\backslash n}(\boldsymbol{\theta})f_{n}(\boldsymbol{\theta})\) のものと一致させたとき、 \(\mathbb{E}[\boldsymbol{\theta}]=\mathbf{m}^{\mathrm{new}}\) であり
$$\mathbf{m}^{\mathrm{new}}=\mathbf{m}^{\backslash n}+\rho_{n}\frac{\nu^{\backslash n}}{\nu^{\backslash n}+1}(\mathbf{x}_{n}-\mathbf{m}^{\backslash n})\tag{10.217☆}$$
を得る。
つづき↓
Comments