βダイバージェンスについて、さっと語る

Index

概要
定義
性質
（補足）関係式 (1) の証明
参考文献

概要

この記事では、βダイバージェンスと呼ばれる類似度指標の一群について、その定義と性質を簡単に解説する。

簡潔さを重視するため、用語ならびに記号はやや適当に用いているが、要望が多いようであればより厳密かつ詳細な記事を作成したい。

定義

確率分布 $\mathbf{P}, \mathbf{Q}$ のβダイバージェンスは、以下のように定義される。

$$D^{(\beta)}_{B}(\mathbf{P}||\mathbf{Q})=\int \left(p(\mathbf{x})\frac{p^{\beta-1}(\mathbf{x})-q^{\beta-1}(\mathbf{x})}{\beta-1}-\frac{p^{\beta}(\mathbf{x})-q^{\beta}(\mathbf{x})}{\beta}\right)d\mu(\mathbf{x}), \beta\in\mathbb{R}\backslash \{0,1\}$$

また、 $\mathbf{P}, \mathbf{Q}$ がともに離散分布であり、確率質量関数を用いて $\mathbf{P}=[p_1, p_2, \ldots, p_n], \mathbf{Q}=[q_1, q_2, \ldots, q_n]$ と表せるとき

$$D^{(\beta)}_{B}(\mathbf{P}||\mathbf{Q})=\sum^{n}_{i=1}\left(p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta}\right), \beta\in\mathbb{R}\backslash \{0,1\}$$

と定義される。

以降は積分や総和の内部である

$$d^{(\beta)}_{B}(p_i||q_i)=p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta}$$

に注目する。

性質

定義では、βの範囲から $0, 1$ を除いたが、 $\beta=0,1$ でのダイバージェンスも定義することができる。

一般化KLダイバージェンス

関係式（証明は後述）

$$\lim_{\beta\to 0}\frac{p^{\beta}-q^{\beta}}{\beta}=\log\left(\frac{p}{q}\right)\tag{1}$$

を用いて $\beta\to 1$ の極限を計算すると

$$\lim_{\beta\to 1}d^{(\beta)}_{B}(p_i||q_i)=p_i\log\left(\frac{p_i}{q_i}\right)-(p_i-q_i)$$

$$=p_i\log\left(\frac{p_i}{q_i}\right)-p_i+q_i$$

となる。

これは、一般化KL（Kullback-Leibler）ダイバージェンス呼ばれる指標である。

板倉斎藤擬距離

また、 $\beta\to 0$ の極限を計算すると

$$\lim_{\beta\to 0}d^{(\beta)}_{B}(p_i||q_i)=p_i\frac{p_i^{-1}-q_i^{-1}}{-1}-\log\left(\frac{p_i}{q_i}\right)$$

$$=\frac{p_i}{q_i}-\log\left(\frac{p_i}{q_i}\right)-1$$

となり、板倉斎藤（IS）擬距離が導かれる。

この指標は音源分離など、スケール不変性が特徴的な分野でよく用いられる。（→別記事）

再定義

これらに基づいてダイバージェンスを再定義すると

$$\begin{eqnarray}d^{(\beta)}_{B}(p_i||q_i)=\begin{cases}p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta} & (\beta \neq 0,1) \\ p_i\log\left(\frac{p_i}{q_i}\right)-p_i+q_i & (\beta = 1) \\ \frac{p_i}{q_i}-\log\left(\frac{p_i}{q_i}\right)-1 & (\beta = 0) \end{cases} \end{eqnarray}$$

となる。

二乗誤差

また、 $\beta=2$ のとき

$$d^{(2)}_{B}(p_i||q_i)=p_i(p_i-q_i)-\frac{p_i^2-q_i^2}{2}$$

$$=\frac{1}{2}(p_i-q_i)^2$$

と、二乗誤差関数（L2-norm）が導かれる。

すなわち、βダイバージェンスはこれらの類似度指標の一般化であり、

板倉斎藤擬距離
一般化KLダイバージェンス
二乗誤差

をシームレスに表現することができる。

（補足）関係式 (1) の証明

関係式 (1) を考えるに際し、まず、以下の極限を考える。

$$\lim_{\beta\to 0}\frac{p^{\beta}-1}{\beta}$$

これは

$$\frac{p^{\beta}-1}{\beta}\to\frac{1-1}{0}=\frac{0}{0}$$

より、不定形である。

ロピタルの定理を用いるために、分子分母を微分することを考える。

$$y=p^{\beta}$$

とおき、両辺の対数をとって微分すると（対数微分法）

$$\frac{d}{d\beta}\log(y)=\frac{d}{d\beta}\beta\log(p)$$

$$\frac{d}{dy}\log(y)\frac{dy}{d\beta}=\log(p)$$

$$\frac{1}{y}\frac{dy}{d\beta}=\log(p)$$

$$\frac{dy}{d\beta}=y\log(p)$$

すなわち

$$(p^{\beta})'=p^{\beta}\log(p)$$

より、

$$\lim_{\beta\to 0}\frac{p^{\beta}-1}{\beta}=\lim_{\beta\to 0}\frac{(p^{\beta}-1)'}{(\beta)'}$$

$$=\lim_{\beta\to 0}\frac{p^{\beta}\log(p)}{1}=\log(p)$$

となる。

同様にロピタルの定理を用いることで、関係式 (1) が導出できる。

参考文献

Cichocki A and Amari S. Families of α-, β- and γ-divergences: flexible and robust measures of similarities. Entropy, 12, 1532-1568, 2010.

概要

定義

性質

一般化KLダイバージェンス

板倉斎藤擬距離

再定義

二乗誤差

（補足）関係式 (1) の証明

参考文献

Comments