この記事では「確率変数の列が収束する」という概念を、確率収束と分布収束の2つの形式から説明します。また、確率収束と分布収束の間に成り立つ関係について紹介し、そこから派生したスラツキーの定理(スルツキーの定理)についても解説します。
最後に、それぞれの公式・定理についての証明を行います。
表記
確率変数の列 \(U_1,U_2,\ldots\) を \(\{U_n\}_{n=1,2,\ldots}\) と表記します。
確率変数の列の収束
確率収束
確率変数の列 \(\{U_n\}_{n=1,2,\ldots}\) が確率変数 \(U\) に確率収束 (convergence in probability) することを
$$U_n\to_pU$$
で表します。これは任意の \(\varepsilon>0\) に対して
$$\lim_{n\to\infty}P(|U_n-U|\geq\varepsilon)=0$$
となることを意味します。
分布収束
確率変数の列 \(\{U_n\}_{n=1,2,\ldots}\) が確率変数 \(U\) に分布収束 (convergence in distribution) することを
$$U_n\to_dU$$
で表します。これは
$$\lim_{n\to\infty}P(U_n\leq x)=P(U\leq x)=F_U(x)$$
となることを意味します。
公式
確率収束と分布収束の間には、以下の関係が成り立ちます。
$$U_n\to_pU\text{ならば}U_n\to_dU\tag{1}$$
$$a\text{を定数とするとき、}U_n\to_da\text{ならば}U_n\to_pa\tag{2}$$
公式の証明は後述します。
スラツキーの定理
確率変数の列 \(\{U_n\}_{n=1,2,\ldots},\{V_n\}_{n=1,2,\ldots}\) と確率変数 \(U,\) 定数 \(a\) について \(U_n\to_dU,V_n\to_pa\) とします。このとき
$$U_n+V_n\to_dU+a\tag{3}$$
$$U_nV_n\to_daU\tag{4}$$
が成り立つことを、スラツキーの定理(Slutsky’s Theorem)といいます。
証明
証明の準備
公式やスラツキー定理の説明するために、以下の不等式を導入し、それが成り立つことを証明しておきます。
不等式の導入
確率変数 \(S,T\) と実数 \(w\) と \(\varepsilon>0\) に対して、不等式
$$P(S\leq w-\varepsilon)-P(|S-T|>\varepsilon)$$
$$\leq P(T\leq w)$$
$$\leq P(S\leq w+\varepsilon)+P(|S-T|>\varepsilon)\tag{5}$$
が成り立ちます。
不等式の証明
$$P(T\leq w)=P(T\leq w,|S-T|\leq\varepsilon)+P(T\leq w,|S-T|>\varepsilon)$$
$$\leq P(S\leq w+\varepsilon)+P(|S-T|>\varepsilon)\tag{6}$$
より、2・3段目の不等式が成り立ちます。ここで、 \(T\leq w,|S-T|\leq\varepsilon\Rightarrow S\leq w+\varepsilon\) が成り立つことを使用しました。
具体的には、 \(T\leq w\) のとき \(S-T\geq S-w\) であり、 \(|S-T|\leq\varepsilon\Leftrightarrow-\varepsilon\leq S-T\leq\varepsilon\) と合わせると \(S-w\leq \varepsilon\) が導かれます。
また、式 \((6)\) の \(w\) を \(w-\varepsilon\) に置き換え、 \(S, T\) を交換すると
$$P(S\leq w-\varepsilon)\leq P(T\leq w)+P(|T-S|>\varepsilon)$$
が導かれ、これを変形すると式 \((5)\) の1・2段目の不等式が得られます。
公式 (1) の証明
不等式 \((5)\) で \(S=U,T=U_n,w=x\) とおくと
$$P(U\leq x-\varepsilon)-P(|U-U_n|>\varepsilon)\leq P(U_n\leq x)\leq P(U\leq x+\varepsilon)+P(|U-U_n|>\varepsilon)$$
となります。ここで、 \(U_n\to_pU\) より、 \(n\to\infty\) とすると
$$P(U\leq x-\varepsilon)\leq\lim_{n\to\infty}P(U_n\leq x)\leq P(U\leq x+\varepsilon)$$
が得られます。 \(x\) は連続なので、 \(\varepsilon\) を小さくすることによって
$$\lim_{n\to\infty}P(U_n\leq x)=P(U\leq x)$$
すなわち \(U_n\to_dU\) となります。
公式 (2) の証明
$$P(|U_n-a|>\varepsilon)=P(U_n>a+\varepsilon)+P(U_n< a+\varepsilon)$$
$$\leq 1-P(U_n\leq a+\varepsilon)+P(U_n\leq a+\varepsilon)\tag{7}$$
の関係式を考えます。 \(U_n\to_da\) は
$$P(U=x)=\begin{cases}1&&(x=a)\\0&&(\text{else})\end{cases}$$
となる確率分布に \(U_n\) が収束することを意味するので、
$$\lim_{n\to\infty}P(U_n\leq a+\varepsilon)=1$$
$$\lim_{n\to\infty}P(U_n\leq a-\varepsilon)=0$$
となります。これを式 \((7)\) に代入すると
$$\lim_{n\to\infty}P(|U_n-a|>\varepsilon)=0$$
が導かれます。
スラツキーの定理 (3) の証明
\(x\) を \(U\) の分布関数の連続点とし、不等式 \((5)\) で \(S=U_n+a,T=U_n+V_n,w=x\) とおくと
$$P(U_n+a\leq x-\varepsilon)-P(|a-V_n|>\varepsilon)\leq P(U_n+V_n\leq x)\leq P(U_n+a\leq x+\varepsilon)+P(|a-V_n|>\varepsilon)$$
$$P(U_n\leq x-a-\varepsilon)-P(|V_n-a|>\varepsilon)\leq P(U_n+V_n\leq x)\leq P(U_n\leq x-a+\varepsilon)+P(|V_n-a|>\varepsilon)$$
となり、
$$U_n\to_dU\Leftrightarrow\begin{cases}\lim_{n\to\infty} P(U_n\leq x-a-\varepsilon)=P(U\leq x-a-\varepsilon)\\ \lim_{n\to\infty} P(U_n\leq x-a+\varepsilon)=P(U\leq x-a+\varepsilon)\end{cases}$$
$$V_n\to_pa\Leftrightarrow P(|V_n-a|>\varepsilon)=0$$
となることを考慮して極限をとると
$$P(U\leq x-a-\varepsilon)\leq\lim_{n\to\infty}P(U_n+V_n\leq x)\leq P(U\leq x-a+\varepsilon)$$
が得られます。ここで \(\varepsilon\to 0\) とすることにより
$$P(U\leq x-a)\leq\lim_{n\to\infty}P(U_n+V_n\leq x)\leq P(U\leq x-a)$$
$$\lim_{n\to\infty}P(U_n+V_n\leq x)=P(U+a\leq x)$$
すなわち \(U_n+V_n\to_dU+a\) が導かれます。
スラツキーの定理 (4) の証明
$$U_nV_n=aU_n+U_n(V_n-a)$$
と変形します。
\(aU_n\to_daU\) であることを考慮すると、 \(U_n(V_n-a)\to_p0\) を証明することができれば、スラツキーの定理 \((3)\) において \(U_n\leftarrow aU_n, V_n\leftarrow U_n(V_n-a)\) とすることにより、
$$U_nV_n=aU_n+U_n(V_n-a)\to_daU$$
が得られます。
$$P(|U_n(V_n-a)|>\varepsilon)=P(|U_n(V_n-a)|>\varepsilon,|V_n-a|\leq\delta)+P(|U_n(V_n-a)|>\varepsilon,|V_n-a|>\delta)$$
$$\leq P(|U_n|>\frac{\varepsilon}{\delta})+P(|V_n-a|>\delta)$$
より、 \(V_n\to_pa\Leftrightarrow\lim_{n\to\infty}P(|V_n-a|>\delta)=0\) を考慮して両辺の極限をとると、
$$\lim_{n\to\infty}P(|U_n(V_n-a)|>\varepsilon)\leq P(|U|>\frac{\varepsilon}{\delta})$$
となり、 \(\delta\to 0\) とすると \(U_n(V_n-a)\to_p 0\) が導かれます。
もっと知りたいこと、感想を教えてください!