この記事の簡略版
線形変換 \(Y=aX+b\) の場合の簡略版はこちら。

概要
確率密度関数は積分を用いて確率を表現するため、置換積分の考え方を応用することで、確率変数を変更したときの新しい確率密度関数を求めることができる。この記事では、そのような確率密度関数の変換公式について考える。
逆変換が一意に定義できる場合
\(M\) 次元確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) が、別の \(M\) 次元確率変数 \({\bf y}=(y_1,y_2,\cdots,y_M)\) に、 \(M\) 個の関数 \(T_1,T_2,\cdots,T_M\) により、 \(y_i=T_i(x_1,x_2,\cdots,x_M)\) (ただし、 \(i=1,2,\cdots,M\) )のように変換される場合を考える。この変換をまとめて \({\bf y}={\bf T}({\bf x})\) と書き、また、その逆変換も \({\bf x}={\bf T}^{-1}({\bf y})\) と表す。
変換前・変換後にかかわらず、確率密度関数は必ず規格化条件(全範囲で積分すると1になる)を満たすので、 \({\bf x}\to{\bf y}\) の置換積分を行っても
$$\int_{R}p({\bf x})d{\bf x}=\int_{R'}|\frac{\partial {\bf x}}{\partial {\bf y}}|p({\bf T}^{-1}({\bf y}))d{\bf y}=1$$
が成り立つ。このとき、 \(R'\) は \({\bf y}\) の積分範囲、 \(\frac{\partial {\bf x}}{\partial {\bf y}}\) はこの変換のヤコビアンである。この式から、変換後の確率密度関数 \(q({\bf y})\) は、 \(|\frac{\partial {\bf x}}{\partial {\bf y}}|p({\bf T}^{-1}({\bf y}))\) と表せることがわかる。ここまでの議論を、 \({\bf T}\) が一次変換となる場合と併せて以下にまとめる。
確率変数 \({\bf x}\) についての確率密度関数 \(p({\bf x})\) を、 \({\bf y}={\bf T}({\bf x})\) により \({\bf y}\)に変換するとき、 \({\bf y}\) の確率密度関数 \(q({\bf y})\) は、 \({\bf T}\)の逆変換 \({\bf T}^{-1}\) を用いて次のように求められる。
$$q({\bf y})=|\frac{\partial {\bf x}}{\partial {\bf y}}|p({\bf T}^{-1}({\bf y})) \tag{1}$$ここで、 \({\bf T}\) が正則な \(M\times M\) 行列 \(T\) と \(M\) 次元ベクトル \({\bf b}\) による一次変換 \({\bf y}=T{\bf x}+{\bf b}\) である場合は、
$$q({\bf y})=|T|^{-1}p(T^{-1}({\bf y}-{\bf b})) \tag{2}$$が成り立つ。このとき、 \(|T|\) は \(T\) の行列式である。
さらに、 \(M=1\) であるとき、すなわち、 \(y=tx+b\) という変換を考える場合は、
$$q(y)=\frac{1}{|t|}p(\frac{y-b}{t}) \tag{3}$$と表せる。
\((2)\) 式の証明
\({\bf y}={\bf T}({\bf x})=T{\bf x}+{\bf b}\) より、 \({\bf x}={\bf T}^{-1}({\bf y})=T^{-1}({\bf y}-{\bf b})\) である。ここで、この変換のヤコビアン \(\frac{\partial {\bf x}}{\partial {\bf y}}\) について考える。
逆行列 \(T^{-1}\) の \(i\) 行 \(j\) 列の要素を \(T^{-1}_{ij}\) と表し、また、 \({\bf b}=(b_1,b_2,\cdots,b_M)\) とすると
$$\begin{pmatrix}x_1\\x_2\\\vdots\\x_i\\\vdots\\x_M\end{pmatrix}=\begin{pmatrix}T^{-1}_{11} & T^{-1}_{12} & \cdots & T^{-1}_{1j} & \cdots & T^{-1}_{1M}\\T^{-1}_{21} & T^{-1}_{22} &&&& \vdots \\\vdots && \ddots &&& \vdots\\T^{-1}_{i1} & T^{-1}_{i2} & \cdots & T^{-1}_{ij} & \cdots & T^{-1}_{iM}\\\vdots &&&& \ddots & \vdots\\T^{-1}_{M1} & \cdots & \cdots & T^{-1}_{Mj} & \cdots & T^{-1}_{MM}\end{pmatrix}\begin{pmatrix}y_1-b_1\\y_2-b_2\\\vdots\\y_j-b_j\\\vdots\\y_M-b_M\end{pmatrix}$$
より
$$x_i=T^{-1}_{i1}(y_1-b_1)+T^{-1}_{i2}(y_2-b_2)+\cdots+T^{-1}_{ij}(y_j-b_j)+\cdots+T^{-1}_{iM}(y_M-b_M)$$
なので
$$\frac{\partial x_i}{\partial y_j}=T^{-1}_{ij}$$
である。ここで、ヤコビアン \(\frac{\partial {\bf x}}{\partial {\bf y}}\) に対応するヤコビ行列
$$\begin{pmatrix}\frac{\partial x_1}{\partial y_1} & \frac{\partial x_1}{\partial y_2} & \cdots & \frac{\partial x_1}{\partial y_j} & \cdots & \frac{\partial x_1}{\partial y_M} \\\frac{\partial x_2}{\partial y_1} & \frac{\partial x_2}{\partial y_2} &&&& \vdots \\\vdots && \ddots &&& \vdots \\\frac{\partial x_i}{\partial y_1} & \frac{\partial x_i}{\partial y_2} & \cdots & \frac{\partial x_i}{\partial y_j} & \cdots & \frac{\partial x_i}{\partial y_M} \\\vdots &&&& \ddots & \vdots \\\frac{\partial x_M}{\partial y_1} & \frac{\partial x_M}{\partial y_2} & \cdots & \frac{\partial x_M}{\partial y_j} & \cdots & \frac{\partial x_M}{\partial y_M} \end{pmatrix}$$
について考えると、 \(\frac{\partial x_i}{\partial y_j}\) は \(i\) 行 \(j\) 列の要素となる。これが \(T^{-1}_{ij}\) と等しくなるため、ヤコビ行列は逆行列 \(T^{-1}\) そのものに等しいことがわかる。したがって、ヤコビアン \(\frac{\partial {\bf x}}{\partial {\bf y}}\) は逆行列 \(T^{-1}\) の行列式 \(|T^{-1}|\) に等しい。
ここで、逆行列の行列式の公式
$$|A^{-1}|=\frac{1}{|A|}$$
を用いると、
$$\frac{\partial {\bf x}}{\partial {\bf y}}=|T^{-1}|=\frac{1}{|T|}=|T|^{-1}$$
となり、以上の結果を \((1)\) 式に代入することで、 \((2)\) 式が得られる。
\((3)\) 式の証明
\(y=tx+b\) より、 \(x=\frac{y-b}{t}=\frac{1}{t}y-\frac{b}{t}\) である。1変数関数の置換積分の公式より
$$\int_{R}p(x)dx=\int_{R'}p(\frac{y-b}{t})\frac{dx}{dy}dy$$
$$=\int_{R'}\frac{1}{t}p(\frac{y-b}{t})dy$$
が成り立つ。ここで、変換後の確率密度関数 \(q(y)\) が常に正の値を取ることを考えると、
$$q(y)=\frac{1}{|t|}p(\frac{y-b}{t})$$
と表されることがわかる。
\(M\) 変数から \(1\) 変数への変換
今度は逆変換が一意に定義できない場合を考えるが、話を単純にするために、ここでは \(M\) 変数から \(1\) 変数への変換のみを扱う。
\(M\) 次元の確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) に対し、 \(1\) 次元の確率変数 \(z\) が存在し、
$$z=f({\bf x})=f(x_1,x_2,\cdots,x_M)$$
の形で変換されるとする。ここで考えるのは、 \(1\) 次元の確率変数 \(z\) の確率分布 \(q(z)\) を \(p(x_1,x_2,\cdots,x_M)\) から求める方法である。
簡単な例を示すために、 \(M=2\) であり、かつ、\(p({\bf x})=p(x_1,x_2)\) が離散分布である場合を考える。 \(z=x_1+x_2\) であるとすると、例えば \(z=3\) となるのは \((x_1,x_2)=(1,2),(2,1),(0,3),(3,0),\cdots\) などの場合である。したがって、 \(z=3\) となる確率を求めるためには、上記のように条件を満たす組み合わせすべてについて、それが生じる確率を足し合わせる必要がある。これを表現するためには、クロネッカーのデルタを用いて以下のように書く。
$$q(z)=\sum_{x_1,x_2}\delta(z,f(x_1,x_2))p(x_1,x_2)$$
すなわち、上式では \(f(x_1,x_2)\) が \(z\) と等しくなる場合にのみ、その確率を加算している。これを一般の \(M\) 変数に拡張すると
$$q(z)=\sum_{x_1,x_2,\cdots,x_M}\delta(z,f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)$$
が得られる。
これまでの議論は離散分布に対してのものであったが、上式で用いたクロネッカーのデルタを、その連続関数に対する自然な拡張であるディラックのデルタ関数に置き換えた式
$$q(z)=\int_{R}\delta(z-f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)d{\bf x}$$
は、連続分布における確率密度関数の変換公式となる。以上をまとめると、次のようになる。
\(M\) 次元の確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) が、 \(z=f({\bf x})=f(x_1,x_2,\cdots,x_M)\) によって \(1\) 次元の確率変数 \(z\) に変換されるとき、 \(z\) の確率密度関数 \(q(z)\) は、 \({\bf x}\) の確率密度関数 \(p(x_1,x_2,\cdots,x_M)\) を用いて以下のように表される。
- \(q(z)\) が離散分布のとき
$$q(z)=\sum_{x_1,x_2,\cdots,x_M}\delta(z,f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)$$- \(q(z)\) が連続分布のとき
$$q(z)=\int_{R}\delta(z-f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)d{\bf x}$$
コメント