スポンサーリンク

デルタ法の導出と、漸近分散近似への応用

自然科学
4
(4)

概要

デルタ法は、分布収束する先が決まっている確率変数の列に対し変換を施したとき、収束先がどのように変化するかを近似的に表現する手法である。

また、正規分布する確率変数の変換により得られた新たな確率変数の漸近分散を、変換前の変数の分散を用いて計算する際にも用いられる。

この記事では、デルタ法を導出した後でその応用例を示し、その結果を簡素な手順としてまとめる。

さらに発展的な事項として、二次のデルタ法を記事末で扱う。

表記

確率変数の列 \(\{U_n\}_{n=1,2,\ldots}\) が確率変数 \(U\) に確率収束することを

$$U_n\to_pU$$

で表す。

また、分布収束することを

$$U_n\to_dU$$

で表す。

確率収束・分布収束の定義と、それらがみたす関係式については

確率変数の列の収束とスラツキーの定理
概要この記事では、確率変数の列の収束の概念を、確率収束と分布収束の2様式から説明する。また、それらがみたす関係について紹介し、そこから派生したスラツキーの定理についても取り扱う。最後に、それぞれの公式・定理についての証明を付した。表...

を参照のこと。

デルタ法

定理

確率変数の列 \(\{U_n\}_{n=1,2,\ldots}\) について、定数 \(\theta\) と \(a_n\uparrow\infty\) となる数列に対して

$$a_n(U_n-\theta)\to_dU$$

であると仮定する。また、連続微分可能な関数 \(g(\cdot)\) について、点 \(\theta\) で \(g'(\theta)\) が存在し

$$g'(\theta)\neq0$$

を仮定する。このとき

$$a_n(g(U_n)-g(\theta))\to_dg'(\theta)U$$

が成り立つ。

証明

\(g(U_n)\) を \(U_n=\theta\) の周りでテイラー展開すると

$$g(U_n)=g(\theta)+g'(\theta^{*})(U_n-\theta)$$

となる。ここで、 \(\theta^{*}\) は

$$|\theta^{*}-\theta|<|U_n-\theta|\tag{1}$$

となる点である。

これを用いると、

$$a_n(g(U_n)-g(\theta))=a_ng'(\theta^{*})(U_n-\theta)$$

と定理の左辺を変形できるため、 \(a_ng'(\theta^{*})(U_n-\theta)\) の分布収束について考えれば良い。

$$U_n-\theta=\frac{1}{a_n}a_n(U_n-\theta)$$

であり、定理の仮定 \(a_n\uparrow\infty, a_n(U_n-\theta)\to_dU\) とスラツキーの定理から

$$U_n-\theta\to_d 0\cdot U=0$$

すなわち \(U_n\to_d\theta\) が導かれる。

これは定数への分布収束であるので、確率収束 \(U_n\to_p\theta\) も成り立つ。

ここで、 \(\theta^{*}\) について条件 \((1)\) より

$$P(|\theta^{*}-\theta|>\varepsilon)\leq P(|U_n-\theta|>\varepsilon)$$

が成り立っている。

\(U_n\) の確率収束について定義式から書き下すと \(\lim_{n\to\infty}P(|U_n-\theta|>\varepsilon)=0\) となることを考慮して両辺の極限をとると、

$$\lim_{n\to\infty}P(|\theta^{*}-\theta|>\varepsilon)=0$$

すなわち \(\theta^{*}\to_p\theta\) である。

\(g'(\cdot)\) の連続性から \(g'(\theta^{*})\to_pg'(\theta)\) であるので、仮定 \(a_n(U_n-\theta)\to_dU\) と合わせてスラツキーの定理を適用し、

$$g'(\theta^{*})a_n(U_n-\theta)\to_dg'(\theta)U$$

が導かれる。

正規分布する確率変数への収束の場合

\(\theta=\mu\) とおき、 \(U\sim\mathcal{N}(u|0,\sigma^2)\) とする。

このとき、デルタ法より

$$a_n(g(U_n)-g(\mu))\to_dg'(\mu)U$$

となるが、確率変数の変換公式

確率変数の線形変換
公式確率変数 \(X\) は確率密度関数 \(f(x)\) にしたがうとする。線形変換$$Y=aX+b$$(ただし、 \(b\neq0\) )を行ったとき、 \(Y\) の確率密度関数 \(g(y)\) は$$g(y)=\frac...

を用いて \(U\to g'(\mu)U\) の変換を行うと

$$g'(\mu)U\sim\frac{1}{|g'(\mu)|}\mathcal{N}(\frac{u}{g'(\mu)}|0, \sigma^2)$$

$$=\frac{1}{\sqrt{2\pi\sigma^2}|g'(\mu)|}\exp\left\{-\frac{1}{2\sigma^2}\left(\frac{u}{g'(\mu)}\right)^2\right\}$$

$$=\frac{1}{\sqrt{2\pi\sigma^2\{g'(\mu)\}^2}}\exp\left\{-\frac{1}{2\sigma^2\{g'(\mu)\}^2}u^2\right\}$$

$$=\mathcal{N}(u|0, \sigma^2\{g'(\mu)\}^2)$$

となる。これを簡潔に

$$a_n(U_n-\mu)\to_d\mathcal{N}(0,\sigma^2)$$

$$\Rightarrow a_n(g(U_n)-g(\mu))\to_d\mathcal{N}(0,\sigma^2\{g'(\mu)\}^2)$$

という定理として書くことがある。

なお、後述するように中心極限定理と合わせて使われやすいことから、 \(a_n=\sqrt{n}\) と置かれるケースが多い。

応用

漸近分散の近似

デルタ法、とくに正規分布と関連した手法は、平均・分散が既知かつ正規分布に分布収束する確率変数の列を変換して得た、新たな確率変数の漸近分散を求める際によく用いられる。

この変換前の確率変数の条件は、中心極限定理

$$X_1,X_2,\cdots,\mathrm{i.i.d.}\sim(\mu,\sigma^2)$$

$$\Rightarrow \sqrt{n}(\bar{X}-\mu)\to_d\mathcal{N}(0,\sigma^2)$$

とよく合致しているため、デルタ法と中心極限定理は合わせて使われることが多い。

(例)指数分布の最尤推定量の漸近分散

独立同分布から得られたデータ \(X_1,\cdots,X_n\) に基づいて、指数分布

$$\mathrm{Ex}(x|\lambda)=\lambda e^{-\lambda x}$$

のパラメータ \(\lambda\) の最尤推定を行うことを考える。

\(\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i\) とおくと、最尤推定量

$$\hat{\lambda}=\frac{1}{\bar{X}}$$

で表される。

指数分布の最尤推定とパラメータ変換、乱数生成
定義指数分布はパラメータ \(\lambda\) を用いて以下のように定義される。$$\mathrm{Exp}(x|\lambda)=\lambda e^{-\lambda x}$$基本的な性質平均分散...

すなわち、最尤推定量 \(\hat{\lambda}\) は、 \(\bar{X}\) を \(g(x)=\frac{1}{x}\) によって変換した確率変数とみなすことができる。

また、

$$\mathbb{E}[X]=\int_0^\infty x\lambda e^{-\lambda x}dx=\frac{1}{\lambda}$$

$$\mathbb{E}[X^2]=\int_0^\infty x^2\lambda e^{-\lambda x}dx=\frac{2}{\lambda^2}$$

$$\mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2=\frac{1}{\lambda^2}$$

より、中心極限定理から

$$\sqrt{n}\left(\bar{X}-\frac{1}{\lambda}\right)\to_d\mathcal{N}\left(0,\frac{1}{\lambda^2}\right)$$

となる。

\(g'(x)=-\frac{1}{x^2}\) より \(g'(\frac{1}{\lambda})=\lambda^2\) であり、 \(a_n=\sqrt{n}\) とおくと、デルタ法により

$$\sqrt{n}\left(g(\bar{X})-g\left(\frac{1}{\lambda}\right)\right)=\sqrt{n}(\hat{\lambda}-\lambda)$$

$$\to_d\mathcal{N}\left(0,(\lambda^2)^2\frac{1}{\lambda^2}\right)=\mathcal{N}(0,\lambda^2)$$

すなわち

$$\hat{\lambda}\to_d\mathcal{N}\left(\lambda,\frac{\lambda^2}{n}\right)$$

より、 \(\hat{\lambda}\) の漸近分散は \(\frac{\lambda^2}{n}\) となる。

漸近分散導出のまとめ

以上の手続きを一般化し、簡潔にまとめると以下のようになる。

期待値が \(\theta\) で分散が \(n^{-1}\) のオーダーの確率変数 \(X\) に、変換 \(g(X)\) を行って新たな確率変数を得たとき、その漸近分散は

$$\mathrm{Var}(g(X))=\{g'(X)\}^2\mathrm{Var}(X)$$

で求められる。

(発展)2次のデルタ法

公式

\(g'(\theta)=0, g''(\theta)\neq 0\) の場合には、2次のデルタ法

$$a_n^2(g(U_n)-g(\theta))\to_d\frac{g''(\theta)}{2}U^2$$

を用いる。

特に、 \(\sqrt{n}(U_n-\mu)\to_d\mathcal{N}(0,\sigma^2)\) が成り立つとき

$$a_n^2(g(U_n)-g(\mu))\to_d\frac{g''(\mu)}{2}\sigma^2Y$$

となる。ここで、 \(Y\) は \(\chi_1^2\) (自由度1のカイ2乗分布)にしたがう確率変数である。

証明

2次の項までテイラー展開すると

$$g(U_n)-g(\theta)=g'(\theta)(U_n-\theta)+2^{-1}g''(\theta^{*})(U_n-\theta)^2$$

$$=2^{-1}g''(\theta^{*})(U_n-\theta)^2$$

である。ここで、 \(g'(\theta)=0\) を用いた。

1次の場合と同様にして \(g''(\theta^{*})\to_pg''(\theta)\) となることが示され、スラツキーの定理から

$$a_n^2(g(U_n)-g(\theta))=a_n^2\{2^{-1}g''(\theta^{*})(U_n-\theta)^2\}$$

$$=\frac{g''(\theta^{*})}{2}\{a_n(U_n-\theta)\}^2\to_d\frac{g''(\theta)}{2}U^2$$

また、 \(U\sim\mathcal{N}(0,\sigma^2)\) のとき

$$\frac{U}{\sigma}\sim\mathcal{N}(0,1)$$

であり、 \(Z=\frac{U}{\sigma}, Y=Z^2\) とおくと \(Y\sim\chi_1^2\) である。

したがって

$$a_n^2(g(U_n)-g(\mu))\to_d\frac{g''(\mu)}{2}U^2$$

$$=\frac{g''(\mu)}{2}\sigma^2\left(\frac{U}{\sigma}\right)^2=\frac{g''(\mu)}{2}\sigma^2Y$$

この記事は役に立ちましたか?

星をクリックして、評価してください!

現在の平均評価 4 / 5. 評価した人数: 4

お役に立てたようで嬉しいです!

著者SNSをフォローしていただけると、更新情報が手に入ります。

記事がご期待に沿えなかったようで、申し訳ありません…。

是非、改善点を教えてください!

この記事において改善すべき点や、追加で知りたかったことは何ですか?

コメント