確率密度関数における変数変換の公式と、その考え方

確率・統計
Sponsored

確率密度関数は積分を用いて確率を表現する方法です。

そのため、確率変数を変換した際には置換積分を応用することで、対応する確率密度関数を求めることができます。

この記事では、確率密度関数やヤコビアンの性質からスタートし、確率密度関数を変換する公式と考え方について解説します

前提知識の参考文献

「確率密度関数は積分を用いて確率を表現する」というイメージを持てていない場合は、以下の記事を参照して理解を深めてください。

【図解】確率変数と確率密度関数を正確に、そして直観的に理解する
確率論で用いられる確率質量関数と確率密度関数について、確率変数の定義から出発して、実例や用途に基づいて直観的に解説します。これらの用語は非常に誤解しやすいのですが、この記事を読むことで、それぞれの正確な意味を押さえ、関連する性質や定理についての理解を早めることができるようになります。

置換積分で変数を変換する方法や、その原理については以下の記事を参照してください。

【図解】置換積分における変数変換の原理と考え方
計算や理論を簡単にするために、積分計算においては、しばしば置換積分による変数変換をします。この記事では1変数関数の不定積分における置換積分からはじめて、最後は多変数関数の定積分における置換積分まで、概念図を交えながら、その公式と原理を解説します。

この記事の簡略版

この記事の内容を1次の線形変換 \(Y=aX+b\) に限った場合、より簡単に考えることができます。

確率変数の線形変換
確率変数の線形変換の公式 確率変数 \(X\) は確率密度関数 \(f(x)\) にしたがうとします。 確率変数の線形変換 $$Y=aX+b$$ (ただし、 \(a\neq0\) )を行ったとき、 \(Y\) の確率密度関数 \(g(y)\...

\(M\) 変数から \(M\) 変数への変換

まず、もとの変数と変換先の変数の次元が等しく、逆変換が一意に定義できる場合の変換を考えます。

問題設定

\(M\) 個の関数 \(T_1,T_2,\cdots,T_M\) を用いて、

\(M\) 次元確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) を、

別の \(M\) 次元確率変数 \({\bf y}=(y_1,y_2,\cdots,y_M)\) に、

\(y_i=T_i(x_1,x_2,\cdots,x_M)\) と変換する(ただし、 \(i=1,2,\cdots,M\) )。

この変換をまとめて \({\bf y}={\bf T}({\bf x})\) と書き、また、その逆変換も \({\bf x}={\bf T}^{-1}({\bf y})\) と表すことにします。

変数変換の公式

確率変数 \({\bf x}\) についての確率密度関数 \(p({\bf x})\) を、 \({\bf y}={\bf T}({\bf x})\) により \({\bf y}\) に変換するとき、

\({\bf y}\) の確率密度関数 \(q({\bf y})\) は、 \({\bf T}\) の逆変換 \({\bf T}^{-1}\) を用いて次のように求められます。

$$q({\bf y})=\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|p({\bf T}^{-1}({\bf y})) \tag{1}$$

ここで、 \(\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|\) はヤコビアン(後述)です。

\({\bf T}\) が正則な \(M\times M\) 行列 \({\bf T}\) と \(M\) 次元ベクトル \({\bf b}\) による一次変換 \({\bf y}={\bf T}{\bf x}+{\bf b}\) である場合は、

$$q({\bf y})=|{\bf T}|^{-1}p({\bf T}^{-1}({\bf y}-{\bf b})) \tag{2}$$

が成り立ちます。

ここで、 \(|{\bf T}|\) は \({\bf T}\) の行列式です。

さらに1次の線形変換、つまり \(M=1\) で \(y=tx+b\) という変換を考える場合は、

$$q(y)=\frac{1}{|t|}p(\frac{y-b}{t}) \tag{3}$$

と変換できます。

ヤコビ行列・ヤコビアンとは?

ヤコビ行列は、各成分が以下のように、 \({\bf x}, {\bf y}\) の要素間の偏微分で定義される行列です。

$$\begin{pmatrix}\frac{\partial x_1}{\partial y_1} && \frac{\partial x_1}{\partial y_2} && \cdots && \frac{\partial x_1}{\partial y_j} && \cdots && \frac{\partial x_1}{\partial y_M} \\ \frac{\partial x_2}{\partial y_1} && \frac{\partial x_2}{\partial y_2} && && && && \vdots \\ \vdots && && \ddots && && && \vdots \\ \frac{\partial x_i}{\partial y_1} && \frac{\partial x_i}{\partial y_2} && \cdots && \frac{\partial x_i}{\partial y_j} && \cdots && \frac{\partial x_i}{\partial y_M} \\ \vdots && && && && \ddots && \vdots \\ \frac{\partial x_M}{\partial y_1} && \frac{\partial x_M}{\partial y_2} && \cdots && \frac{\partial x_M}{\partial y_j} && \cdots && \frac{\partial x_M}{\partial y_M} \end{pmatrix}$$

ヤコビ行列の行列式ヤコビアンといい、

$$\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|$$

と書きます。

置換積分において、なぜヤコビアンが出てくるのかについては

【図解】置換積分における変数変換の原理と考え方
計算や理論を簡単にするために、積分計算においては、しばしば置換積分による変数変換をします。この記事では1変数関数の不定積分における置換積分からはじめて、最後は多変数関数の定積分における置換積分まで、概念図を交えながら、その公式と原理を解説します。

を参照してください。

公式の証明

一般の変換公式 \((1)\) の証明

変換前・変換後にかかわらず、確率密度関数は必ず規格化条件(全範囲で積分すると1になる)をみたします。

そのため、 \({\bf x}\to{\bf y}\) の置換積分を行っても

$$\int_{R}p({\bf x})d{\bf x}=\int_{R'}|\frac{\partial {\bf x}}{\partial {\bf y}}|p({\bf T}^{-1}({\bf y}))d{\bf y}=1$$

が成り立ちます。

(ここで、 \(R, R'\) はそれぞれ \({\bf x}, {\bf y}\) の積分範囲、 \(\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|\) はこの変換のヤコビアンです)

この式から、変換後の確率密度関数 \(q({\bf y})\) は、 \(\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|p({\bf T}^{-1}({\bf y}))\) と表せることがわかります。

線形の変換公式 \((2)\) の証明

$${\bf y}={\bf T}({\bf x})=T{\bf x}+{\bf b}$$

より、逆変換を用いると

$${\bf x}={\bf T}^{-1}({\bf y})=T^{-1}({\bf y}-{\bf b})\tag{2.1}$$

と書けます。

ここで、この変換のヤコビアン \(\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|\) と、逆行列 \({\bf T}^{-1}\) の関係について考えます。

逆行列 \({\bf T}^{-1}\) の \(i\) 行 \(j\) 列の要素を \(T^{-1}_{ij}\) と表し、また、 \({\bf b}=(b_1,b_2,\cdots,b_M)\) とすると、 \((2.1)\) 式は行列を用いて

$$\begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_i \\ \vdots \\ x_M\end{pmatrix}=\begin{pmatrix}T^{-1}_{11} && T^{-1}_{12} && \cdots && T^{-1}_{1j} && \cdots && T^{-1}_{1M} \\ T^{-1}_{21} && T^{-1}_{22} &&&&&&&& \vdots \\ \vdots && && \ddots &&&&&& \vdots \\ T^{-1}_{i1} && T^{-1}_{i2} && \cdots && T^{-1}_{ij} && \cdots && T^{-1}_{iM} \\ \vdots && && && && \ddots && \vdots \\ T^{-1}_{M1} && \cdots && \cdots && T^{-1}_{Mj} && \cdots && T^{-1}_{MM}\end{pmatrix}\begin{pmatrix}y_1-b_1 \\ y_2-b_2 \\ \vdots \\ y_j-b_j \\ \vdots \\ y_M-b_M \end{pmatrix}$$

と表現できます。

\({\bf x}\) の各要素は

$$x_i=T^{-1}_{i1}(y_1-b_1)+T^{-1}_{i2}(y_2-b_2)+\cdots+T^{-1}_{ij}(y_j-b_j)+\cdots+T^{-1}_{iM}(y_M-b_M)$$

と計算できるので、両辺を \(y_j\) で偏微分すると

$$\frac{\partial x_i}{\partial y_j}=T^{-1}_{ij}$$

となります。

左辺はヤコビアン \(\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|\) に対応するヤコビ行列の \(i\) 行 \(j\) 列の要素であり、

これが \(T^{-1}_{ij}\) と等しくなるため、ヤコビ行列は逆行列 \({\bf T}^{-1}\) そのものに等しいことがわかります。

したがって、ヤコビアン \(\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|\) は逆行列 \({\bf T}^{-1}\) の行列式 \(|{\bf T}^{-1}|\) に等しくなります。

ここで、逆行列の行列式の公式

$$|{\bf A}^{-1}|=\frac{1}{|{\bf A}|}$$

を用いると、

$$\left|\frac{\partial {\bf x}}{\partial {\bf y}}\right|=|{\bf T}^{-1}|=\frac{1}{|{\bf T}|}=|{\bf T}|^{-1}$$

となります。

以上の結果を \((1)\) 式に代入することで、 \((2)\) 式が得られます。

1次線形の変換公式 \((3)\) の証明

$$y=tx+b$$

を \(x\) について解くと

$$x=\frac{y-b}{t}=\frac{1}{t}y-\frac{b}{t}$$

となります。

また、1変数関数の置換積分の公式より

$$\int_{R}p(x)dx=\int_{R'}p(\frac{y-b}{t})\frac{dx}{dy}dy$$

$$=\int_{R'}\frac{1}{t}p(\frac{y-b}{t})dy$$

が成り立ちます。

ここで、変換後の確率密度関数 \(q(y)\) が常に \(q(y)\geq 0\) となることを考えると、

$$q(y)=\frac{1}{|t|}p(\frac{y-b}{t})$$

と表されることがわかります。

\(M\) 変数から \(1\) 変数への変換

今度は逆変換が一意に定義できない場合を考えます。

話を単純にするために、ここでは \(M\) 変数から \(1\) 変数への変換のみを扱うことにします。

問題設定

\(M\) 次元の確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) に対し、

\(1\) 次元の確率変数 \(z\) が存在し、

$$z=f({\bf x})=f(x_1,x_2,\cdots,x_M)$$

の形で変換されるとする。

このとき、 \(1\) 次元の確率変数 \(z\) の確率分布 \(q(z)\) を

\(p(x_1,x_2,\cdots,x_M)\) から求める方法を考える。

簡単な例を示すために、 \(M=2\) であり、かつ、 \(p({\bf x})=p(x_1,x_2)\) が離散分布である場合を考えます。

\(z=x_1+x_2\) であるとすると、例えば \(z=3\) となるのは

$$(x_1,x_2)=(1,2),(2,1),(0,3),(3,0),\cdots$$

などの場合です。

したがって、 \(z=3\) となる確率を求めるためには、上記のように条件をみたす全ての組み合わせについて、それが生じる確率を足し合わせる必要があります。

これを表現するためには、クロネッカーのデルタを用いて以下のように書きます。

$$q(z)=\sum_{x_1,x_2}\delta(z,f(x_1,x_2))p(x_1,x_2)$$

【参考】クロネッカーのデルタ/ディラックのデルタ関数

すなわち、上式では \(f(x_1,x_2)\) が \(z\) と等しくなる場合にのみ、その確率を加算しています。

これを一般の \(M\) 変数に拡張すると

$$q(z)=\sum_{x_1,x_2,\cdots,x_M}\delta(z,f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)$$

が得られます。

これまでの議論は離散分布に対してのものでした。

上式で用いたクロネッカーのデルタを、その連続関数に対する自然な拡張であるディラックのデルタ関数に置き換えた式

$$q(z)=\int_{R}\delta(z-f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)d{\bf x}$$

は、連続分布における確率密度関数の変換公式となります。

以上をまとめると、次のようになります。

\(M\) 次元の確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) が、

\(z=f({\bf x})=f(x_1,x_2,\cdots,x_M)\) によって \(1\) 次元の確率変数 \(z\) に変換されるとき、

\(z\) の確率密度関数 \(q(z)\) は、 \({\bf x}\) の確率密度関数 \(p(x_1,x_2,\cdots,x_M)\) を用いて以下のように表される。

  • \(q(z)\) が離散分布のとき
    $$q(z)=\sum_{x_1,x_2,\cdots,x_M}\delta(z,f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)$$
  • \(q(z)\) が連続分布のとき
    $$q(z)=\int_{R}\delta(z-f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)d{\bf x}$$

Comments