概要
この記事では、βダイバージェンスと呼ばれる類似度指標の一群について、その定義と性質を簡単に解説する。
簡潔さを重視するため、用語ならびに記号はやや適当に用いているが、要望が多いようであればより厳密かつ詳細な記事を作成したい。
定義
確率分布 \(\mathbf{P}, \mathbf{Q}\) のβダイバージェンスは、以下のように定義される。
$$D^{(\beta)}_{B}(\mathbf{P}||\mathbf{Q})=\int \left(p(\mathbf{x})\frac{p^{\beta-1}(\mathbf{x})-q^{\beta-1}(\mathbf{x})}{\beta-1}-\frac{p^{\beta}(\mathbf{x})-q^{\beta}(\mathbf{x})}{\beta}\right)d\mu(\mathbf{x}), \beta\in\mathbb{R}\backslash \{0,1\}$$
また、 \(\mathbf{P}, \mathbf{Q}\) がともに離散分布であり、確率質量関数を用いて \(\mathbf{P}=[p_1, p_2, \ldots, p_n], \mathbf{Q}=[q_1, q_2, \ldots, q_n]\) と表せるとき
$$D^{(\beta)}_{B}(\mathbf{P}||\mathbf{Q})=\sum^{n}_{i=1}\left(p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta}\right), \beta\in\mathbb{R}\backslash \{0,1\}$$
と定義される。
以降は積分や総和の内部である
$$d^{(\beta)}_{B}(p_i||q_i)=p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta}$$
に注目する。
性質
定義では、βの範囲から \(0, 1\) を除いたが、 \(\beta=0,1\) でのダイバージェンスも定義することができる。
一般化KLダイバージェンス
関係式(証明は後述)
$$\lim_{\beta\to 0}\frac{p^{\beta}-q^{\beta}}{\beta}=\log\left(\frac{p}{q}\right)\tag{1}$$
を用いて \(\beta\to 1\) の極限を計算すると
$$\lim_{\beta\to 1}d^{(\beta)}_{B}(p_i||q_i)=p_i\log\left(\frac{p_i}{q_i}\right)-(p_i-q_i)$$
$$=p_i\log\left(\frac{p_i}{q_i}\right)-p_i+q_i$$
となる。
これは、一般化KL(Kullback-Leibler)ダイバージェンス呼ばれる指標である。
板倉斎藤擬距離
また、 \(\beta\to 0\) の極限を計算すると
$$\lim_{\beta\to 0}d^{(\beta)}_{B}(p_i||q_i)=p_i\frac{p_i^{-1}-q_i^{-1}}{-1}-\log\left(\frac{p_i}{q_i}\right)$$
$$=\frac{p_i}{q_i}-\log\left(\frac{p_i}{q_i}\right)-1$$
となり、板倉斎藤(IS)擬距離が導かれる。
この指標は音源分離など、スケール不変性が特徴的な分野でよく用いられる。(→別記事)
再定義
これらに基づいてダイバージェンスを再定義すると
$$\begin{eqnarray}d^{(\beta)}_{B}(p_i||q_i)=\begin{cases}p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta} & (\beta \neq 0,1) \\ p_i\log\left(\frac{p_i}{q_i}\right)-p_i+q_i & (\beta = 1) \\ \frac{p_i}{q_i}-\log\left(\frac{p_i}{q_i}\right)-1 & (\beta = 0) \end{cases} \end{eqnarray}$$
となる。
二乗誤差
また、 \(\beta=2\) のとき
$$d^{(2)}_{B}(p_i||q_i)=p_i(p_i-q_i)-\frac{p_i^2-q_i^2}{2}$$
$$=\frac{1}{2}(p_i-q_i)^2$$
と、二乗誤差関数(L2-norm)が導かれる。
すなわち、βダイバージェンスはこれらの類似度指標の一般化であり、
- 板倉斎藤擬距離
- 一般化KLダイバージェンス
- 二乗誤差
をシームレスに表現することができる。
(補足)関係式 (1) の証明
関係式 (1) を考えるに際し、まず、以下の極限を考える。
$$\lim_{\beta\to 0}\frac{p^{\beta}-1}{\beta}$$
これは
$$\frac{p^{\beta}-1}{\beta}\to\frac{1-1}{0}=\frac{0}{0}$$
より、不定形である。
ロピタルの定理を用いるために、分子分母を微分することを考える。
$$y=p^{\beta}$$
とおき、両辺の対数をとって微分すると(対数微分法)
$$\frac{d}{d\beta}\log(y)=\frac{d}{d\beta}\beta\log(p)$$
$$\frac{d}{dy}\log(y)\frac{dy}{d\beta}=\log(p)$$
$$\frac{1}{y}\frac{dy}{d\beta}=\log(p)$$
$$\frac{dy}{d\beta}=y\log(p)$$
すなわち
$$(p^{\beta})’=p^{\beta}\log(p)$$
より、
$$\lim_{\beta\to 0}\frac{p^{\beta}-1}{\beta}=\lim_{\beta\to 0}\frac{(p^{\beta}-1)’}{(\beta)’}$$
$$=\lim_{\beta\to 0}\frac{p^{\beta}\log(p)}{1}=\log(p)$$
となる。
同様にロピタルの定理を用いることで、関係式 (1) が導出できる。
参考文献
Cichocki A and Amari S. Families of α-, β- and γ-divergences: flexible and robust measures of similarities. Entropy, 12, 1532-1568, 2010.
もっと知りたいこと、感想を教えてください!