一般の順序統計量の確率分布

確率・統計
Sponsored

概要

この記事では順序統計量を定義し、その値がしたがう分布を導出する。

順序統計量の定義

同一の確率密度関数 \(f(x)\) から独立に得られた確率変数の組 \(X_1,X_2,\cdots,X_n\) を考える。

これらを小さいもの順に並び替え、 \(U_1,U_2,\cdots,U_n\) とおいたとき、これらを順序統計量という。

たとえば、

$$\{X_1,X_2,X_3\}=\{5,1,3\}$$

のとき、

$$U_1=X_2=1$$

$$U_2=X_3=3$$

$$U_3=X_1=5$$

となる。

順序統計量の確率分布

順序統計量がとる値の分布について考える。

最大統計量 \(U_n\) がしたがう分布については、

同一の分布にしたがう確率変数の最大値の分布
動機 乱数をたくさん発生させたとき、その最大値はどんなふうに分布することになるのか気になった。 問題 確率密度関数 \(f\) にしたがう連続確率変数 \(X\) を考える。独立に \(n\) 個のサンプルを発生させ、その最大値を \(Y\...

で述べた。

これを一般化すると、 \(k\) 番目の順序統計量 \(U_{k}\) の累積分布関数

$$G_k(x)=\sum_{t=k}^{n}{}_n\mathrm{C}_k\{F(x)\}^t\{1-F(x)\}^{n-t}$$

で表される。ここで、 \(F(x)\) は \(X\) の累積分布関数であり、 \(\frac{d}{dx}F(x)=f(x)\) が成り立つ。

これを微分することで確率密度関数

$$g_k(x)=\sum_{t=k}^{n}{}_n\mathrm{C}_t\left[tf(x)\{F(x)\}^{t-1}-(n-t)f(x)\{1-F(x)\}^{n-t-1}\right]$$

$$=\sum_{t=k}^{n}\left[\frac{n!}{(t-1)!(n-t)!}f(x)\{F(x)\}^{t-1}-\frac{n!}{t!(n-t-1)!}f(x)\{1-F(x)\}^{n-t-1}\right]$$

が得られる。

証明

最大統計量の場合と同様に、累積分布関数

$$G_k(x)=P(U_k\leq x)$$

を考える。

1個の確率変数が \(x\) 以下の値をとる確率は \(F(x)\) であり、値が \(x\) 以下となる確率変数の個数を確率変数 \(Y\) とおくと、 \(Y\) は二項分布

$$\mathrm{Bin}(y|n,F(x))={}_n\mathrm{C}_y\{F(x)\}^y\{1-F(x)\}^{n-y}\tag{1}$$

にしたがう。

すなわち、 \(P(Y=y)=\mathrm{Bin}(y|n,F(x))\) である。

\(k\) 番目の順序統計量 \(U_k\) の値が \(x\) 以下となるとき、全 \(n\) 個の確率変数のうち、少なくとも \(k\) 個以上が \(x\) 以下の値をとる。

すなわち、 \(G_k(x)=P(Y\geq k)\) であるので、 \(Y\geq k\) となるすべての場合について式 \((1)\) を足し合わせると、

$$G_k(x)=\sum_{t=k}^{n}\mathrm{Bin}(t|n,F(x))$$

$$=\sum_{t=k}^{n}{}_n\mathrm{C}_t\{F(x)\}^t\{1-F(x)\}^{n-t}$$

が導かれる。

Comments