確率変数と確率密度関数 | USHITORA Lab.
スポンサーリンク

確率変数と確率密度関数

数学

この記事では、確率論で用いられる「確率変数」や「確率密度関数」などの用語について解説する。

確率変数

定義

確率変数とは、確率論において、起こり得る事柄(事象)に割り当てられている数(通常、整数や実数など)を値として取る変数のことである。

確率変数を\(x\)で表す。

例えばサイコロについて考えると、\(x\)は\(x=1,2,3,4,5,6\)の6種類の値を取り得る。なお、事象\(x\)が生じる確率を\(P(x)\)と書くことにすると、

$$P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=\frac{1}{6}$$

である。

また、\(x\)は「世界の人の身長」というような実数値を取ることもできる。この場合、\(x\)の範囲は世界で最も小さい人の身長以上、最も大きい人の身長以下となり、サイコロについて考えた時のように離散的な値ではなく、連続した値を取る。

確率密度関数

\(x\)が離散的な値を取る場合には特定の\(x\)が生じる確率\(P(x)\)を求めることができたが、\(x\)が連続的な値を取る場合には大きな問題が生じることがわかる。例えば、1人の人間を選んだ時に、その人の身長が(\(1nm\)の誤差もなく)ピッタリ\(170cm\)である確率は0であると言わざるを得ない。このように\(x\)が連続値を取る場合には、任意の値の\(x\)について、\(P(x)=0\)が成り立つ。

そのため、実用上は連続値の特定の1点を考えるのではなく、\(x\)がとある範囲の値を取るときの確率を考える。すなわち、「身長が\(170cm\sim 180cm\)となる確率」などである1)確率変数が連続値を取る場合の他の例としては、時計を見た時に、「秒針が(1ナノ秒の誤差もなく)ピッタリ45秒を指している確率」は0だが、「秒針が45秒から60秒の間を指している確率」は\(\frac{1}{4}\)であることなどを考えよ。。この確率\(P[170\leq x\leq 180]\)は、以下のように積分の形で表される。

$$P[170\leq x\leq 180]=\int_{170}^{180}p(x)dx$$

このとき、式に含まれる\(p(x)\)のことを確率密度関数という。

定義

確率変数\(x\)が、\(a\leq x\leq b\)範囲の値をとる確率を\(P[a\leq x\leq b]\)とすると、

$$P[a\leq x\leq b]=\int_{a}^{b}p(x)dx$$

が成り立つとき、\(p(x)\)を確率密度関数という。

性質

定義より、確率変数\(x\)が、\(x\)から\(x+dx\)までの領域の値を取るときの確率は\(p(x)dx\)となる。

また、確率変数\(x\)の定義域を\({\bf R}\)とすると、全体確率は1となることより、

$$\int_{{\bf R}}p(x)dx=1$$

を満たす。上式の条件を、規格化条件という。また、確率密度関数は常に正値となる。したがって、\(p(x)\)が確率密度関数であるための本質的な条件は以下の2点である。

  1. $$\int_{{\bf R}}p(x)dx=1 \tag{1}$$
  2. $$p(x)\geq 0 \tag{2}$$

多変数への応用

これまでは確率変数が1次元の場合を考えてきたが、\(M\)次元確率変数\({\bf x}\)についても

$$P[{\bf a\leq x\leq b}]=\int_{{\bf a}}^{{\bf b}}p({\bf x})d{\bf x}$$

を満たす確率密度関数\(p({\bf x})\)を定義でき、確率変数\({\bf x}\)が、\({\bf x}\)から\({\bf x}+d{\bf x}\)までの領域の値を取る確率は\(p({\bf x})d{\bf x}\)となる。このとき、

$$d{\bf x}=\prod_{i=1}^{M}dx_i$$

である。

\(M=2\)における状況を図示して説明すると、

\(d{\bf x}=dx_1dx_2\)は上図の面積に等しい。これに\(p({\bf x})\)を掛けると確率になることから、\(p({\bf x})\)は単位面積当たりの確率と考えることができる。これが確率「密度」関数と呼ばれる理由である。

\(M\geq 3\)の場合も、\(d{\bf x}=dx_1dx_2\cdots dx_M\)を体積に相当するものと考えることで同様の議論が成り立つ。

確率密度関数の周辺化

\(M\)次元確率変数\({\bf x}=(x_1,x_2,\cdots,x_M)\)に対する確率密度関数\(p({\bf x\})\)について、\(x_3\)から\(x_M\)までのみ積分を行った結果を\(f(x_1,x_2)\)とすると、

$$f(x_1,x_2)=\int_{{\bf R}}p({\bf x})dx_3 dx_4 \cdots dx_M$$

となる。このとき、\(p({\bf x})\geq 0\)であることから、\(f(x_1,x_2)\geq 0\)である。また、\(f(x_1,x_2)\)を\(x_1\)と\(x_2\)について積分すると

$$\int_{{\bf R}}f(x_1,x_2)dx_1dx_2=\int_{{\bf R}}(\int_{{\bf R}}p({\bf x})dx_3 dx_4 \cdots dx_M)dx_1dx_2$$

$$=\int_{{\bf R}}p({\bf x})dx_1dx_2dx_3 dx_4 \cdots dx_M$$

$$=\int_{{\bf R}}p({\bf x})d{\bf x}=1$$

より、\((1),(2)\)式を満たすため、\(f(x_1,x_2)\)は\(2\)次元の確率変数\((x_1,x_2)\)についての確率密度関数となる。このように、\(M\)次元確率変数に対する確率密度関数を不要な\(N\,(N<M)\)次元について積分のみすることで、必要な\(M-N\)次元確率変数に対する確率密度関数を求めることができる。この手法を周辺化といい、得られた確率密度関数(今回の場合は\(f\))のことを周辺分布という。また、もともとの分布のことは、周辺分布と対比的に同時分布または結合分布という。

References   [ + ]

1.確率変数が連続値を取る場合の他の例としては、時計を見た時に、「秒針が(1ナノ秒の誤差もなく)ピッタリ45秒を指している確率」は0だが、「秒針が45秒から60秒の間を指している確率」は\(\frac{1}{4}\)であることなどを考えよ。

コメント