「2つの事象が同時に生じる確率」を同時確率といいます。
同時確率を計算する方法について、事象の独立性や条件付き確率を通して考え、最終的にベイズの定理を導きます。
この記事を読むことで、ベイズの定理を効果的に利用するための方法を理解することができます。
記号の定義
この記事では、以下のような記号を使用して、用語を表現します。
- アルファベットの大文字:事象
- (例)「サイコロで6の目が出る」「明日、雨が降る」「検査で陽性が出る」など
- \(P(A)\) :事象 \(A\) が発生する確率
- \(P(A,B)\) :事象 \(A\) と事象 \(B\) が同時に発生する確率(同時確率)
独立性と条件付き確率
事象には、同時に起こりやすい・起こりにくいものがある
以下のように、3つの事象を定義し、互いの関係を考えます。
- \(A\) :今日は雨が降っている
- \(B\) :今日は湿度が高い
- \(C\) :今日は水曜日だ
このうち、 \(A\) と \(B\) は同時に起こりやすいことが想像できます。
対して、「水」曜日だからといって雨が降りやすいとか、湿度が高いということはないので、 \(C\) と \(A,B\) の間には、起こりやすい・起こりにくいという関係はありません。
後者のように、たとえば事象 \(A\) の発生が事象 \(C\) の発生に依存せず、同時にその逆も成り立つとき、事象 \(A\) と事象 \(C\) は独立であるといいます。
独立した2事象の同時確率
2つの事象が同時に発生する確率、同時確率を考えます。
事象 \(A\) と 事象 \(C\) の場合、
「今日は雨が降っている、かつ、水曜日である」
を意味します。
2事象が独立である場合、事象 \(A\) が確率 \(P(A)\) で生じたあと、別個に事象 \(C\) が確率 \(P(C)\) で生じたと考えることができるため、
同時確率 \(P(A, C)\) は、それぞれが発生する確率 \(P(A), P(C)\) の積になります。
$$P(A, C)=P(A)P(C)=P(C)P(A)\tag{1}$$
なお、事象 \(A,C\) の発生順序を逆にして考えても問題ありません。
独立でない2事象の同時確率
一方、事象 \(A\) と事象 \(B\) のように、互いに独立でない場合は上の議論が成り立ちません。
なぜならば、事象 \(A\) が確率 \(P(A)\) で生じたあと、事象 \(B\) が生じる確率はもはや \(P(B)\) ではないからです。
たとえば、事象 \(B\) に関し、晴れの日も雨の日も含めて「今日は湿っぽいな…」と感じる確率が30%であるとしましょう。
この状況が \(P(B)=0.3\) という確率であらわされます。
しかし、今日は雨であることが確定した時点で、 \(P(B)=0.3\) の背景から晴れの日が除かれるので、「今日は湿っぽいな…」と感じる確率は30%よりも大きくなるはずです。
このように、事象 \(A\) を観測した状態での事象 \(B\) が生じる確率を、
事象 \(B\) の事象 \(A\) による条件付き確率といい、
$$P(B|A)$$
であらわされます。
これを用いると、同時確率 \(P(A, B)\) は
$$P(A, B)=P(B|A)P(A)\tag{2}$$
と書くことができます。
条件付き確率からみた独立性
事象 \(A\) と事象 \(B\) の場合、
$$P(B|A)>P(B)$$
となりました。
ここで、式 \((1),(2)\) を比較することで、2事象 \(X, Y\) の条件付き確率について
- \(P(Y|X)=P(Y)\) のとき独立
- \(P(Y|X)\neq P(Y)\) のとき独立でない
と言えることがわかります。
ベイズの定理
同時確率からベイズの定理を導く
事象 \(A\) と事象 \(B\) について、先ほどは
- 今日は雨が降っている \(P(A)\)
- 雨が降っている状況で、湿度が高い \(P(B|A)\)
という発生順で、同時確率
$$P(A, B)=P(B|A)P(A)\tag{2}$$
を導きました。
しかし逆に、
- 今日は湿度が高い \(P(B)\)
- 湿度が高い状況で、雨が降っている \(P(A|B)\)
という発生順で考えても、等価な同時確率 \(P(A, B)\) に行き着くはずです。
そしてこの場合は
$$P(A, B)=P(A|B)P(B)\tag{3}$$
と書けます。
式 \((2), (3)\) が等しいことから、以下のベイズの定理が成り立ちます。
$$P(B|A)P(A)=P(A|B)P(B)\tag{4}$$
事前・事後確率と尤度
ベイズの定理は式 \((4)\) を変形し、
$$P(B|A)=\frac{P(A|B)}{P(A)}\times P(B)\tag{5}$$
の形で用いられることが多いです。
この式を、事象 \(B\) の観点から眺めてみます。
事象 \(A\) の情報が得られる前後について考えてみると、
\(P(B)\) は事象 \(A\) を考慮していないので事前確率
\(P(B|A)\) は事象 \(A\) の結果が得られたあとの確率なので事後確率と呼ぶことができます。
\(\frac{P(A|B)}{P(A)}\) を尤度と呼ぶことにすると、ベイズの定理は
$$(事後確率)=(尤度)\times(事前確率)$$
という関係をあらわしたものと考えることができます。
また、尤度を構成するパーツを事象 \(A\) の観点から眺めると、 \(P(A)\) は事前確率、 \(P(A|B)\) は事後確率に相当します。
よってベイズの定理は
$$(BのAについての事後確率)=\frac{(AのBについての事後確率)(Bの事前確率)}{(Aの事前確率)}$$
として、Bの事前確率とAの事前・事後確率から、Bの事後確率を計算するための式とみることもできます。
まとめると、ベイズの定理は
- 事後確率を、事前確率と尤度から計算する
- Yの事後確率を、Yの事前確率とXの事前・事後確率から計算する
の2通りの方法で使うことができます。
ベイズの定理の活用例
事後確率を、事前確率と尤度から計算する
検査後確率を検査前確率と陽性・陰性尤度比から計算する方法について、以下の記事で詳しく解説しています。
この場合、
- \(A\) :病気である
- \(B\) :検査で陽性である
という事象を考え、「検査で陽性と判定された人が実際に病気である確率」 \(P(A|B)\) を計算しています。
このとき、計算に使うことができる指標が尤度ではなく尤度比なので、ベイズの定理に基づく計算では、確率ではなくオッズを使用しています。
$$(検査後オッズ)=(尤度比)\times(検査前オッズ)$$
Yの事後確率を、Yの事前確率とXの事前・事後確率から計算する
一方の事後確率が、他方に比べて著しく計算しにくいとき、ベイズの定理を活用すると便利です。
たとえば機械学習モデルを作るにあたり、以下の事象を考えます。
- \(\mathcal{D}\) :データ \(\mathcal{D}\) が得られる
- \(\boldsymbol{\Theta}\) :モデルがパラメータ \(\boldsymbol{\Theta}\) をもつ
精度の高い機械学習モデルを作るためには、データ \(\mathcal{D}\) にもとづいて適切なパラメータ \(\boldsymbol{\Theta}\) を設定する必要があります。
しかし、データ \(\mathcal{D}\) にもとづくパラメータ \(\boldsymbol{\Theta}\) の事後確率 \(P(\boldsymbol{\Theta}|\mathcal{D})\) (この確率を最大にする \(\boldsymbol{\Theta}\) が最適なパラメータになる)を直接もとめるのは困難です。
一方、モデルのパラメータにもとづくデータ \(\mathcal{D}\) の事後確率 \(P(\mathcal{D}|\boldsymbol{\Theta})\) (パラメータを \(\boldsymbol{\Theta}\) に設定したときに、どんなデータ \(\mathcal{D}\) が出てくるか)は、機械学習モデルを動かせばすぐにわかります。
よって、それぞれの事前確率とあわせて
$$P(\boldsymbol{\Theta}|\mathcal{D})=\frac{P(\mathcal{D}|\boldsymbol{\Theta})P(\boldsymbol{\Theta})}{P(\mathcal{D})}$$
という計算を行うことで、機械学習モデルの構築に重要な \(\boldsymbol{\Theta}\) の事後分布を簡単に求めることができます。
Comments