概要
この記事では、超幾何分布の性質について簡単に説明した後、特定の条件下で、超幾何分布が二項分布、そしてポワソン分布に近似されることを示す。
超幾何分布
全 \(N\) 個のうち、 \(K\) 個が「成功」(赤玉・白玉などで考えて良い)である要素のうち、 \(n\) 個を非復元抽出した場合に「成功」が \(x\) 個得られることの確率分布は
$$P(x|N,K,n)=\frac{\binom{K}{x}\binom{N-K}{n-x}}{\binom{N}{n}}$$
で与えられる。ここで、 \(\binom{a}{b}\) は二項係数であり、 \({}_a\mathrm{C}_b\) に等しい。
これを超幾何分布と呼ぶ。
簡単な導出
\(N\) 個の要素から \(n\) 個を重複を許さずに抽出する方法は \({}_N\mathrm{C}_n\) 通り
「成功」 \(K\) 個から \(x\) 個を取り出す方法は \({}_K\mathrm{C}_x\) 通り
「失敗」 \(N-K\) 個から残り \(n-x\) 個を取り出す方法は \({}_{N-K}\mathrm{C}_{n-x}\) 通り
以上より、求める確率は
$$\frac{\binom{K}{x}\binom{N-K}{n-x}}{\binom{N}{n}}$$
性質
平均
$$\mathbb{E}[x]=n\frac{K}{N}$$
分散
$$\mathrm{Var}(x)=n\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}$$
二項分布への近似
公式
要素全体に占める「成功」の確率を \(\frac{K}{N}=p\) に固定したうえで、 \(N\to\infty\) としたとき、超幾何分布は二項分布
$$\mathrm{Bin}(x|n, p)=\binom{n}{x}p^x(1-p)^{n-x}$$
に近似される。
意味
非復元抽出を行った場合、「成功」を1個取り出すたびに、その後さらに「成功」を取り出す確率は小さくなる。
すなわち
$$\circ\circ\times\times\times$$
このとき \(\circ\) を取り出す確率は \(\frac{2}{5}\) だが、1つ取り出したあとは
$$\circ\times\times\times$$
より、 \(\frac{2-1}{5-1}=\frac{1}{4}\) となる。
また、「失敗」を取り出したあとは逆に「成功」を取り出す確率が上がる。(上の例だと \(\frac{2}{5-1}=\frac{2}{4}\) )
しかし、 \(N\) が非常に大きい場合、要素を数個取り出しても「成功」を取り出す確率はほとんど変化しない。すなわち
$$\frac{K-1}{N-1}\simeq\frac{K}{N-1}\simeq\frac{K}{N}=p$$
となり、確率が一定に保たれる。
よって、非復元抽出は確率 \(p\) で \(n\) 回抽出するという、二項分布の設定と同等であるとみなせる。
導出
$$\frac{\binom{K}{x}\binom{N-K}{n-x}}{\binom{N}{n}}$$
$$=\frac{\frac{K!}{(K-x)!x!}\frac{(N-K)!}{(N-K-n+x)!(n-x)!}}{\frac{N!}{(N-n)!n!}}$$
$$=\frac{n!}{(n-x)!x!}\frac{K!}{(K-x)!}\frac{(N-K)!}{(N-K-n+x)!}\frac{(N-n)!}{N!}$$
$$=\binom{n}{x}\frac{K(K-1)\cdots(K-x+1)(N-K)(N-K-1)\cdots(N-K-n+x+1)}{N(N-1)\cdots(N-n+1)}$$
$$=\binom{n}{x}\prod_{i=0}^{x-1}\frac{K-i}{N-i}\prod_{j=0}^{n-x-1}\frac{N-K-j}{N-x-j}$$
ここで、 \(N\to\infty\) とすると、1つ目の相乗記号内について
$$\frac{K-i}{N-i}=\frac{\frac{K}{N}-\frac{i}{N}}{1-\frac{i}{N}}\to p$$
2つ目の相乗記号内について
$$\frac{N-K-j}{N-x-j}=\frac{1-\frac{K}{N}-\frac{j}{N}}{1-\frac{x+j}{N}}\to 1-p$$
が各要素について成り立ち、要素数はそれぞれ \(x, n-x\) 個である。
以上より
$$\lim_{N\to\infty}P(x|N,K,n)=\binom{n}{x}p^x(1-p)^{n-x}$$
ポワソン分布への近似
公式
超幾何分布が二項分布に近似される条件( \(\frac{K}{N}=p\) で一定かつ \(N\to\infty\) )をみたしつつ、さらに \(n\to\infty\) となるとき、超幾何分布はポワソン分布
$$\mathrm{Po}(x|\lambda)=\frac{\lambda^x}{x!}e^{-\lambda}$$
に近似される。ここで \(\lambda=np\) であり一定値をとるとする。
意味
二項分布への近似条件に加えて、抽出数 \(n\) を無限大にしたときに近似が導かれる。
すなわち、要素数が十分に大きく、また抽出数も大きい場合の非復元抽出は、「成功」という稀な事象が同期的に生じる現象と同様に考えることができる。
導出
二項分布に近似した上で、
の手順でポワソン分布へと近似する。
Comments