確率論で用いられる確率質量関数と確率密度関数について、確率変数の定義から出発して、実例や用途に基づいて直観的に解説する。
これらの用語は非常に誤解しやすいが、この記事を読むことで、それぞれの正確な意味を押さえ、関連する性質や定理についての理解を早めることができる。
確率変数
定義
確率変数とは、確率論において、起こり得る事柄(事象)に割り当てられている数(通常、整数や実数など)を値として取る変数のことである。
確率変数の例
以下、実例を挙げながら、確率変数には離散確率変数と連続確率変数の2種類があることを説明する。
ここでは確率変数を \(x\) で表す。
離散確率変数
「サイコロの出目」について考えると、 \(x\) は \(x=1,2,3,4,5,6\) の6種類の値(事象)を取り得る。
このように、事象の数が有限な確率変数を離散確率変数という。
連続確率変数
「時計の長針の位置」について考えると、 \(x\) は \(0\leq x< 60\) 分の範囲の実数値をとる(12.345...分なども考える)。
このように、事象の数が無限になる確率変数を連続確率変数という。
確率を表す関数
前章で定義した離散確率変数と連続確率変数のそれぞれに関して、各事象が生じる確率を表現する関数を考える。
確率質量関数
サイコロ(離散確率変数)の場合、事象 \(x\) が生じる確率を \(P(x)\) と書くことにすると、
$$P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=\frac{1}{6}$$
と書ける。
このような関数を確率質量関数という。
確率の総和が1(100%)になるという前提から、全事象を重量1の物体とみなし、各事象に確率を重みとして割り当てていくことから「質量」という名前が付いた。
確率密度関数
連続確率変数に関する問題
時計の長針の位置(連続確率変数)の場合も同様に、事象 \(x\) が生じる確率を \(P(x)\) と書くことにする。
このとき、 \(P(30)\) の値はいくつになるだろうか。
これを確率質量関数と見た場合、「長針が30分を指している確率」となる。
長針が任意の位置にある確率はすべて等価だが、起こりうる事象は無限にあるため、サイコロと同様に考えると
$$P(30)=\frac{1}{\infty}=0$$
となってしまう。
これはすべての実数について成り立ち、以上より、連続確率変数に対しては、個々の事象に確率(質量)を割り当てることができないことがわかる。
確率「密度」の考え方
そこで連続確率変数の場合は、事象ではなく範囲に確率を割り当てる。
たとえば、「長針が30分から45分の間にある確率」について考えた場合、この値は \(\frac{1}{4}\) とすぐに求められる。
この確率 \(P[30\leq x< 45]\) を、積分を用いて以下のように表現することを考える。
$$P[30\leq x< 45]=\int^{45}_{30}p(x)dx=\frac{1}{4}$$
ここで、積分の中に現れた関数 \(p(x)\) を確率密度関数と呼ぶ。
今回は各事象ではなく、事象の範囲に確率質量を割り当てた。
そのため質量を範囲の単位で割ると、各事象には確率密度が与えられたと考えられることが、この名称の由来である。
確率密度関数の値の意味
長針の場合、各事象が生じる確率は等価であることから、確率密度関数 \(p(x)\) の値が事象 \(x\) によらず
$$p(x)=a$$
と定数値をとることを仮定する。
確率は全事象の区間で積分すると1になることから
$$P[0\leq x< 60]=\int^{60}_{0}p(x)dx=\int^{60}_{0}adx$$
$$=[ax]^{60}_{0}=60a=1$$
より
$$p(x)=a=\frac{1}{60}$$
となる。つまり事象 \(x\) によらず
$$p(0)=p(30)=p(60)=p(12.345)=\frac{1}{60}$$
となるが、これらはたとえば「長針が30分の位置にある確率が \(\frac{1}{60}\) である」ことを意味しない。
なぜならば、これは確率密度を表したものであり、その値は積分の結果でのみ意味を持つからである。
定義
以上の議論を踏まえて、確率密度関数を正確に定義しておく。
確率変数 \(x\) が、 \(a\leq x\leq b\) の範囲の値をとる確率を \(P[a\leq x\leq b]\)とすると、
$$P[a\leq x\leq b]=\int_{a}^{b}p(x)dx$$
が成り立つとき、 \(p(x)\) を確率密度関数という。
確率密度関数の条件
定義より、確率変数 \(x\) が、 \(x\) から \(x+dx\) までの領域の値を取るときの確率は、長方形の計算から \(p(x)dx\) となる。
また、確率変数 \(x\) の定義域を \({\bf R}\) とすると、全体確率は1となることより、
$$\int_{\mathbf{R}}p(x)dx=1$$
を満たす。
上式の条件を、規格化条件という。
また、確率密度関数は常に非負値となる。
したがって、 \(p(x)\) が確率密度関数であるための本質的な条件は以下の2点である。
$$\int_{\mathbf{R}}p(x)dx=1 \tag{1}$$
$$p(x)\geq 0 \tag{2}$$
多変数への応用
これまでは確率変数が1次元の場合を考えてきたが、 \(M\) 次元確率変数 \(\mathbf{x}\) についても
$$P[\mathbf{a}\leq\mathbf{x}\leq \mathbf{b}]=\int_{\mathbf{a}}^{\mathbf{b}}p(\mathbf{x})d\mathbf{x}$$
を満たす確率密度関数 \(p(\mathbf{x})\) を定義でき、確率変数 \(\mathbf{x}\) が、 \(\mathbf{x}\) から \(\mathbf{x}+d\mathbf{x}\) までの領域の値を取る確率は \(p(\mathbf{x})d\mathbf{x}\) となる。
このとき
$$d\mathbf{x}=\prod_{i=1}^{M}dx_i$$
である。
\(M=2\) における状況を図示して説明すると、
\(d\mathbf{x}=dx_1dx_2\) は上図の面積に等しい。
これに \(p(\mathbf{x})\) を掛けると確率になることから、 \(p(\mathbf{x})\) は単位面積当たりの確率と考えることができる。
この関係からも、確率「密度」の意味が明確になる。
また \(M\geq 3\) の場合も、 \(d\mathbf{x}=dx_1dx_2\cdots dx_M\) を体積に相当するものと考えることで同様の議論が成り立つ。
確率密度関数の周辺化
\(M\) 次元確率変数 \(\mathbf{x}=(x_1,x_2,\cdots,x_M)\) に対する確率密度関数 \(p(\mathbf{x})\) について、 \(x_3\) から \(x_M\) までのみ積分を行った結果を \(f(x_1,x_2)\) とすると、
$$f(x_1,x_2)=\int_{\mathbf{R}}p(\mathbf {x})dx_3 dx_4 \cdots dx_M$$
となる。
このとき、 \(p(\mathbf{x})\geq 0\) であることから、 \(f(x_1,x_2)\geq 0\) である。
また、 \(f(x_1,x_2)\) を \(x_1\) と \(x_2\) について積分すると
$$\int_{\mathbf{R}}f(x_1,x_2)dx_1dx_2=\int_{\mathbf{R}}(\int_{\mathbf{R}}p(\mathbf{x})dx_3 dx_4 \cdots dx_M)dx_1dx_2$$
$$=\int_{\mathbf{R}}p(\mathbf{x})dx_1dx_2dx_3 dx_4 \cdots dx_M$$
$$=\int_{\mathbf{R}}p(\mathbf{x})d\mathbf{x}=1$$
より、 \((1),(2)\) 式を満たすため、 \(f(x_1,x_2)\) は \(2\) 次元の確率変数 \((x_1,x_2)\) についての確率密度関数となる。
このように、 \(M\) 次元確率変数に対する確率密度関数を不要な \(N\,(N< M)\) 次元についてのみ積分することで、必要な \(M-N\) 次元確率変数に対する確率密度関数を求めることができる。
この手法を周辺化といい、得られた確率密度関数(今回の場合は \(f\) )のことを周辺分布という。
また、もともとの分布のことは、周辺分布に対して同時分布または結合分布という。
コメント