βダイバージェンスについて、さっと語る

確率・統計
Sponsored

概要

この記事では、βダイバージェンスと呼ばれる類似度指標の一群について、その定義と性質を簡単に解説する。

簡潔さを重視するため、用語ならびに記号はやや適当に用いているが、要望が多いようであればより厳密かつ詳細な記事を作成したい。

定義

確率分布 \(\mathbf{P}, \mathbf{Q}\) のβダイバージェンスは、以下のように定義される。

$$D^{(\beta)}_{B}(\mathbf{P}||\mathbf{Q})=\int \left(p(\mathbf{x})\frac{p^{\beta-1}(\mathbf{x})-q^{\beta-1}(\mathbf{x})}{\beta-1}-\frac{p^{\beta}(\mathbf{x})-q^{\beta}(\mathbf{x})}{\beta}\right)d\mu(\mathbf{x}), \beta\in\mathbb{R}\backslash \{0,1\}$$

また、 \(\mathbf{P}, \mathbf{Q}\) がともに離散分布であり、確率質量関数を用いて \(\mathbf{P}=[p_1, p_2, \ldots, p_n], \mathbf{Q}=[q_1, q_2, \ldots, q_n]\) と表せるとき

$$D^{(\beta)}_{B}(\mathbf{P}||\mathbf{Q})=\sum^{n}_{i=1}\left(p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta}\right), \beta\in\mathbb{R}\backslash \{0,1\}$$

と定義される。

以降は積分や総和の内部である

$$d^{(\beta)}_{B}(p_i||q_i)=p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta}$$

に注目する。

性質

定義では、βの範囲から \(0, 1\) を除いたが、 \(\beta=0,1\) でのダイバージェンスも定義することができる。

一般化KLダイバージェンス

関係式(証明は後述)

$$\lim_{\beta\to 0}\frac{p^{\beta}-q^{\beta}}{\beta}=\log\left(\frac{p}{q}\right)\tag{1}$$

を用いて \(\beta\to 1\) の極限を計算すると

$$\lim_{\beta\to 1}d^{(\beta)}_{B}(p_i||q_i)=p_i\log\left(\frac{p_i}{q_i}\right)-(p_i-q_i)$$

$$=p_i\log\left(\frac{p_i}{q_i}\right)-p_i+q_i$$

となる。

これは、一般化KL(Kullback-Leibler)ダイバージェンス呼ばれる指標である。

板倉斎藤擬距離

また、 \(\beta\to 0\) の極限を計算すると

$$\lim_{\beta\to 0}d^{(\beta)}_{B}(p_i||q_i)=p_i\frac{p_i^{-1}-q_i^{-1}}{-1}-\log\left(\frac{p_i}{q_i}\right)$$

$$=\frac{p_i}{q_i}-\log\left(\frac{p_i}{q_i}\right)-1$$

となり、板倉斎藤(IS)擬距離が導かれる。

この指標は音源分離など、スケール不変性が特徴的な分野でよく用いられる。(→別記事)

再定義

これらに基づいてダイバージェンスを再定義すると

$$\begin{eqnarray}d^{(\beta)}_{B}(p_i||q_i)=\begin{cases}p_i\frac{p_i^{\beta-1}-q_i^{\beta-1}}{\beta-1}-\frac{p_i^\beta-q_i^\beta}{\beta} & (\beta \neq 0,1) \\ p_i\log\left(\frac{p_i}{q_i}\right)-p_i+q_i & (\beta = 1) \\ \frac{p_i}{q_i}-\log\left(\frac{p_i}{q_i}\right)-1 & (\beta = 0) \end{cases} \end{eqnarray}$$

となる。

二乗誤差

また、 \(\beta=2\) のとき

$$d^{(2)}_{B}(p_i||q_i)=p_i(p_i-q_i)-\frac{p_i^2-q_i^2}{2}$$

$$=\frac{1}{2}(p_i-q_i)^2$$

と、二乗誤差関数(L2-norm)が導かれる。

すなわち、βダイバージェンスはこれらの類似度指標の一般化であり、

  1. 板倉斎藤擬距離
  2. 一般化KLダイバージェンス
  3. 二乗誤差

をシームレスに表現することができる。

(補足)関係式 (1) の証明

関係式 (1) を考えるに際し、まず、以下の極限を考える。

$$\lim_{\beta\to 0}\frac{p^{\beta}-1}{\beta}$$

これは

$$\frac{p^{\beta}-1}{\beta}\to\frac{1-1}{0}=\frac{0}{0}$$

より、不定形である。

ロピタルの定理を用いるために、分子分母を微分することを考える。

$$y=p^{\beta}$$

とおき、両辺の対数をとって微分すると(対数微分法)

$$\frac{d}{d\beta}\log(y)=\frac{d}{d\beta}\beta\log(p)$$

$$\frac{d}{dy}\log(y)\frac{dy}{d\beta}=\log(p)$$

$$\frac{1}{y}\frac{dy}{d\beta}=\log(p)$$

$$\frac{dy}{d\beta}=y\log(p)$$

すなわち

$$(p^{\beta})'=p^{\beta}\log(p)$$

より、

$$\lim_{\beta\to 0}\frac{p^{\beta}-1}{\beta}=\lim_{\beta\to 0}\frac{(p^{\beta}-1)'}{(\beta)'}$$

$$=\lim_{\beta\to 0}\frac{p^{\beta}\log(p)}{1}=\log(p)$$

となる。

同様にロピタルの定理を用いることで、関係式 (1) が導出できる。

参考文献

Cichocki A and Amari S. Families of α-, β- and γ-divergences: flexible and robust measures of similarities. Entropy, 12, 1532-1568, 2010.

Comments