この記事では、確率論で用いられる「確率変数」や「確率密度関数」などの用語について解説する。
確率変数
定義
確率変数とは、確率論において、起こり得る事柄(事象)に割り当てられている数(通常、整数や実数など)を値として取る変数のことである。
例
確率変数を\(x\)で表す。
例えばサイコロについて考えると、\(x\)は\(x=1,2,3,4,5,6\)の6種類の値を取り得る。なお、事象\(x\)が生じる確率を\(P(x)\)と書くことにすると、
$$P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=\frac{1}{6}$$
である。
また、\(x\)は「世界の人の身長」というような実数値を取ることもできる。この場合、\(x\)の範囲は世界で最も小さい人の身長以上、最も大きい人の身長以下となり、サイコロについて考えた時のように離散的な値ではなく、連続した値を取る。
確率密度関数
\(x\)が離散的な値を取る場合には特定の\(x\)が生じる確率\(P(x)\)を求めることができたが、\(x\)が連続的な値を取る場合には大きな問題が生じることがわかる。例えば、1人の人間を選んだ時に、その人の身長が(\(1nm\)の誤差もなく)ピッタリ\(170cm\)である確率は0であると言わざるを得ない。このように\(x\)が連続値を取る場合には、任意の値の\(x\)について、\(P(x)=0\)が成り立つ。
そのため、実用上は連続値の特定の1点を考えるのではなく、\(x\)がとある範囲の値を取るときの確率を考える。すなわち、「身長が\(170cm\sim 180cm\)となる確率」などである[1] … Continue reading。この確率\(P[170\leq x\leq 180]\)は、以下のように積分の形で表される。
$$P[170\leq x\leq 180]=\int_{170}^{180}p(x)dx$$
このとき、式に含まれる\(p(x)\)のことを確率密度関数という。
定義
確率変数\(x\)が、\(a\leq x\leq b\)範囲の値をとる確率を\(P[a\leq x\leq b]\)とすると、
$$P[a\leq x\leq b]=\int_{a}^{b}p(x)dx$$が成り立つとき、\(p(x)\)を確率密度関数という。
性質
定義より、確率変数\(x\)が、\(x\)から\(x+dx\)までの領域の値を取るときの確率は\(p(x)dx\)となる。
また、確率変数\(x\)の定義域を\({\bf R}\)とすると、全体確率は1となることより、
$$\int_{{\bf R}}p(x)dx=1$$
を満たす。上式の条件を、規格化条件という。また、確率密度関数は常に正値となる。したがって、\(p(x)\)が確率密度関数であるための本質的な条件は以下の2点である。
- $$\int_{{\bf R}}p(x)dx=1 \tag{1}$$
- $$p(x)\geq 0 \tag{2}$$
多変数への応用
これまでは確率変数が1次元の場合を考えてきたが、\(M\)次元確率変数\({\bf x}\)についても
$$P[{\bf a\leq x\leq b}]=\int_{{\bf a}}^{{\bf b}}p({\bf x})d{\bf x}$$
を満たす確率密度関数\(p({\bf x})\)を定義でき、確率変数\({\bf x}\)が、\({\bf x}\)から\({\bf x}+d{\bf x}\)までの領域の値を取る確率は\(p({\bf x})d{\bf x}\)となる。このとき、
$$d{\bf x}=\prod_{i=1}^{M}dx_i$$
である。
\(M=2\)における状況を図示して説明すると、

\(d{\bf x}=dx_1dx_2\)は上図の面積に等しい。これに\(p({\bf x})\)を掛けると確率になることから、\(p({\bf x})\)は単位面積当たりの確率と考えることができる。これが確率「密度」関数と呼ばれる理由である。
\(M\geq 3\)の場合も、\(d{\bf x}=dx_1dx_2\cdots dx_M\)を体積に相当するものと考えることで同様の議論が成り立つ。
確率密度関数の周辺化
\(M\)次元確率変数\({\bf x}=(x_1,x_2,\cdots,x_M)\)に対する確率密度関数\(p({\bf x\})\)について、\(x_3\)から\(x_M\)までのみ積分を行った結果を\(f(x_1,x_2)\)とすると、
$$f(x_1,x_2)=\int_{{\bf R}}p({\bf x})dx_3 dx_4 \cdots dx_M$$
となる。このとき、\(p({\bf x})\geq 0\)であることから、\(f(x_1,x_2)\geq 0\)である。また、\(f(x_1,x_2)\)を\(x_1\)と\(x_2\)について積分すると
$$\int_{{\bf R}}f(x_1,x_2)dx_1dx_2=\int_{{\bf R}}(\int_{{\bf R}}p({\bf x})dx_3 dx_4 \cdots dx_M)dx_1dx_2$$
$$=\int_{{\bf R}}p({\bf x})dx_1dx_2dx_3 dx_4 \cdots dx_M$$
$$=\int_{{\bf R}}p({\bf x})d{\bf x}=1$$
より、\((1),(2)\)式を満たすため、\(f(x_1,x_2)\)は\(2\)次元の確率変数\((x_1,x_2)\)についての確率密度関数となる。このように、\(M\)次元確率変数に対する確率密度関数を不要な\(N\,(N<M)\)次元について積分のみすることで、必要な\(M-N\)次元確率変数に対する確率密度関数を求めることができる。この手法を周辺化といい、得られた確率密度関数(今回の場合は\(f\))のことを周辺分布という。また、もともとの分布のことは、周辺分布と対比的に同時分布または結合分布という。
References
↑1 | 確率変数が連続値を取る場合の他の例としては、時計を見た時に、「秒針が(1ナノ秒の誤差もなく)ピッタリ45秒を指している確率」は0だが、「秒針が45秒から60秒の間を指している確率」は\(\frac{1}{4}\)であることなどを考えよ。 |
---|
コメント