デルタ法の導出と、漸近分散近似への応用

確率・統計
Sponsored

概要

デルタ法は、分布収束する先が決まっている確率変数の列に対し変換を施したとき、収束先がどのように変化するかを近似的に表現する手法である。

また、正規分布する確率変数の変換により得られた新たな確率変数の漸近分散を、変換前の変数の分散を用いて計算する際にも用いられる。

この記事では、デルタ法を導出した後でその応用例を示し、その結果を簡素な手順としてまとめる。

さらに発展的な事項として、二次のデルタ法を記事末で扱う。

表記

確率変数の列 \(\{U_n\}_{n=1,2,\ldots}\) が確率変数 \(U\) に確率収束することを

$$U_n\to_pU$$

で表す。

また、分布収束することを

$$U_n\to_dU$$

で表す。

確率収束・分布収束の定義と、それらがみたす関係式については

確率変数の列の収束とスラツキーの定理
概要 この記事では、確率変数の列の収束の概念を、確率収束と分布収束の2様式から説明する。 また、それらがみたす関係について紹介し、そこから派生したスラツキーの定理についても取り扱う。 最後に、それぞれの公式・定理についての証明を付した。 表...

を参照のこと。

デルタ法

定理

確率変数の列 \(\{U_n\}_{n=1,2,\ldots}\) について、定数 \(\theta\) と \(a_n\uparrow\infty\) となる数列に対して

$$a_n(U_n-\theta)\to_dU$$

であると仮定する。また、連続微分可能な関数 \(g(\cdot)\) について、点 \(\theta\) で \(g'(\theta)\) が存在し

$$g'(\theta)\neq0$$

を仮定する。このとき

$$a_n(g(U_n)-g(\theta))\to_dg'(\theta)U$$

が成り立つ。

証明

\(g(U_n)\) を \(U_n=\theta\) の周りでテイラー展開すると

$$g(U_n)=g(\theta)+g'(\theta^{*})(U_n-\theta)$$

となる。ここで、 \(\theta^{*}\) は

$$|\theta^{*}-\theta|<|U_n-\theta|\tag{1}$$

となる点である。

これを用いると、

$$a_n(g(U_n)-g(\theta))=a_ng'(\theta^{*})(U_n-\theta)$$

と定理の左辺を変形できるため、 \(a_ng'(\theta^{*})(U_n-\theta)\) の分布収束について考えれば良い。

$$U_n-\theta=\frac{1}{a_n}a_n(U_n-\theta)$$

であり、定理の仮定 \(a_n\uparrow\infty, a_n(U_n-\theta)\to_dU\) とスラツキーの定理から

$$U_n-\theta\to_d 0\cdot U=0$$

すなわち \(U_n\to_d\theta\) が導かれる。

これは定数への分布収束であるので、確率収束 \(U_n\to_p\theta\) も成り立つ。

ここで、 \(\theta^{*}\) について条件 \((1)\) より

$$P(|\theta^{*}-\theta|>\varepsilon)\leq P(|U_n-\theta|>\varepsilon)$$

が成り立っている。

\(U_n\) の確率収束について定義式から書き下すと \(\lim_{n\to\infty}P(|U_n-\theta|>\varepsilon)=0\) となることを考慮して両辺の極限をとると、

$$\lim_{n\to\infty}P(|\theta^{*}-\theta|>\varepsilon)=0$$

すなわち \(\theta^{*}\to_p\theta\) である。

\(g'(\cdot)\) の連続性から \(g'(\theta^{*})\to_pg'(\theta)\) であるので、仮定 \(a_n(U_n-\theta)\to_dU\) と合わせてスラツキーの定理を適用し、

$$g'(\theta^{*})a_n(U_n-\theta)\to_dg'(\theta)U$$

が導かれる。

正規分布する確率変数への収束の場合

\(\theta=\mu\) とおき、 \(U\sim\mathcal{N}(u|0,\sigma^2)\) とする。

このとき、デルタ法より

$$a_n(g(U_n)-g(\mu))\to_dg'(\mu)U$$

となるが、確率変数の変換公式

確率変数の線形変換
確率変数の線形変換の公式 確率変数 \(X\) は確率密度関数 \(f(x)\) にしたがうとします。 確率変数の線形変換 $$Y=aX+b$$ (ただし、 \(a\neq0\) )を行ったとき、 \(Y\) の確率密度関数 \(g(y)\...

を用いて \(U\to g'(\mu)U\) の変換を行うと

$$g'(\mu)U\sim\frac{1}{|g'(\mu)|}\mathcal{N}(\frac{u}{g'(\mu)}|0, \sigma^2)$$

$$=\frac{1}{\sqrt{2\pi\sigma^2}|g'(\mu)|}\exp\left\{-\frac{1}{2\sigma^2}\left(\frac{u}{g'(\mu)}\right)^2\right\}$$

$$=\frac{1}{\sqrt{2\pi\sigma^2\{g'(\mu)\}^2}}\exp\left\{-\frac{1}{2\sigma^2\{g'(\mu)\}^2}u^2\right\}$$

$$=\mathcal{N}(u|0, \sigma^2\{g'(\mu)\}^2)$$

となる。これを簡潔に

$$a_n(U_n-\mu)\to_d\mathcal{N}(0,\sigma^2)$$

$$\Rightarrow a_n(g(U_n)-g(\mu))\to_d\mathcal{N}(0,\sigma^2\{g'(\mu)\}^2)$$

という定理として書くことがある。

なお、後述するように中心極限定理と合わせて使われやすいことから、 \(a_n=\sqrt{n}\) と置かれるケースが多い。

応用

漸近分散の近似

デルタ法、とくに正規分布と関連した手法は、平均・分散が既知かつ正規分布に分布収束する確率変数の列を変換して得た、新たな確率変数の漸近分散を求める際によく用いられる。

この変換前の確率変数の条件は、中心極限定理

$$X_1,X_2,\cdots,\mathrm{i.i.d.}\sim(\mu,\sigma^2)$$

$$\Rightarrow \sqrt{n}(\bar{X}-\mu)\to_d\mathcal{N}(0,\sigma^2)$$

とよく合致しているため、デルタ法と中心極限定理は合わせて使われることが多い。

(例)指数分布の最尤推定量の漸近分散

独立同分布から得られたデータ \(X_1,\cdots,X_n\) に基づいて、指数分布

$$\mathrm{Ex}(x|\lambda)=\lambda e^{-\lambda x}$$

のパラメータ \(\lambda\) の最尤推定を行うことを考える。

\(\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i\) とおくと、最尤推定量

$$\hat{\lambda}=\frac{1}{\bar{X}}$$

で表される。

指数分布の性質と、最尤推定・パラメータ変換・乱数生成まで
指数分布を定義し、平均や分散といった基本的な性質を示す。その後、最尤推定によりパラメータの値を求める、パラメータを変換してデータをスケーリングする、逆関数法により乱数を生成するという、指数関数の実用テクニックを網羅的に解説する。また、文末にはPython言語による計算例を示し、上記の実用テクニックを一通り体験できるようにした。

すなわち、最尤推定量 \(\hat{\lambda}\) は、 \(\bar{X}\) を \(g(x)=\frac{1}{x}\) によって変換した確率変数とみなすことができる。

また、

$$\mathbb{E}[X]=\int_0^\infty x\lambda e^{-\lambda x}dx=\frac{1}{\lambda}$$

$$\mathbb{E}[X^2]=\int_0^\infty x^2\lambda e^{-\lambda x}dx=\frac{2}{\lambda^2}$$

$$\mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2=\frac{1}{\lambda^2}$$

より、中心極限定理から

$$\sqrt{n}\left(\bar{X}-\frac{1}{\lambda}\right)\to_d\mathcal{N}\left(0,\frac{1}{\lambda^2}\right)$$

となる。

\(g'(x)=-\frac{1}{x^2}\) より \(g'(\frac{1}{\lambda})=-\lambda^2\) であり、 \(a_n=\sqrt{n}\) とおくと、デルタ法により

$$\sqrt{n}\left(g(\bar{X})-g\left(\frac{1}{\lambda}\right)\right)=\sqrt{n}(\hat{\lambda}-\lambda)$$

$$\to_d(-\lambda^2)\mathcal{N}\left(0,\frac{1}{\lambda^2}\right)=\mathcal{N}\left(0,(-\lambda^2)^2\frac{1}{\lambda^2}\right)=\mathcal{N}(0,\lambda^2)$$

整理すると

$$\sqrt{n}(\hat{\lambda}-\lambda)\to_d\mathcal{N}(0,\lambda^2)$$

という分布収束の関係が得られ、これを変形していくと

$$\hat{\lambda}-\lambda\to_d\frac{1}{\sqrt{n}}\mathcal{N}(0,\lambda^2)=\mathcal{N}\left(0,\left(\frac{1}{\sqrt{n}}\right)^2\lambda^2\right)=\mathcal{N}\left(0,\frac{\lambda^2}{n}\right)$$

より

$$\hat{\lambda}\to_d\mathcal{N}\left(\lambda,\frac{\lambda^2}{n}\right)$$

したがって、 \(\hat{\lambda}\) の漸近分散は \(\frac{\lambda^2}{n}\) となる。

漸近分散導出のまとめ

以上の手続きを一般化し、簡潔にまとめると以下のようになる。

期待値が \(\theta\) で分散が \(n^{-1}\) のオーダーの確率変数 \(X\) に、変換 \(g(X)\) を行って新たな確率変数を得たとき、その漸近分散は

$$\mathrm{Var}(g(X))=\{g'(X)\}^2\mathrm{Var}(X)$$

で求められる。

(発展)2次のデルタ法

公式

\(g'(\theta)=0, g''(\theta)\neq 0\) の場合には、2次のデルタ法

$$a_n^2(g(U_n)-g(\theta))\to_d\frac{g''(\theta)}{2}U^2$$

を用いる。

特に、 \(\sqrt{n}(U_n-\mu)\to_d\mathcal{N}(0,\sigma^2)\) が成り立つとき

$$a_n^2(g(U_n)-g(\mu))\to_d\frac{g''(\mu)}{2}\sigma^2Y$$

となる。ここで、 \(Y\) は \(\chi_1^2\) (自由度1のカイ2乗分布)にしたがう確率変数である。

証明

2次の項までテイラー展開すると

$$g(U_n)-g(\theta)=g'(\theta)(U_n-\theta)+2^{-1}g''(\theta^{*})(U_n-\theta)^2$$

$$=2^{-1}g''(\theta^{*})(U_n-\theta)^2$$

である。ここで、 \(g'(\theta)=0\) を用いた。

1次の場合と同様にして \(g''(\theta^{*})\to_pg''(\theta)\) となることが示され、スラツキーの定理から

$$a_n^2(g(U_n)-g(\theta))=a_n^2\{2^{-1}g''(\theta^{*})(U_n-\theta)^2\}$$

$$=\frac{g''(\theta^{*})}{2}\{a_n(U_n-\theta)\}^2\to_d\frac{g''(\theta)}{2}U^2$$

また、 \(U\sim\mathcal{N}(0,\sigma^2)\) のとき

$$\frac{U}{\sigma}\sim\mathcal{N}(0,1)$$

であり、 \(Z=\frac{U}{\sigma}, Y=Z^2\) とおくと \(Y\sim\chi_1^2\) である。

したがって

$$a_n^2(g(U_n)-g(\mu))\to_d\frac{g''(\mu)}{2}U^2$$

$$=\frac{g''(\mu)}{2}\sigma^2\left(\frac{U}{\sigma}\right)^2=\frac{g''(\mu)}{2}\sigma^2Y$$

Comments

  1. やよ より:

    g'(1/λ)=λ^2???なぜ??

    変数変換してλ、その微分で1じゃないのでしょうか。
    もしくはg'(x)=-1/x^2に代入して−λ^2では?

    • ありがとうございます!
      ご指摘のとおり、g'(1/λ)=-λ^2が正しいです。
      記事の該当箇所を修正いたしました。
      なお、先にg(1/λ)という変数変換を行った場合、λではなく1/λで微分を行うことになるので、
      この場合もg'(1/λ)=-λ^2となります。

  2. まよ より:

    λ^2/nの漸近分散について
    nはどこから来たのでしょうか?

    • √n(λ^-λ)がN(0,λ^2)に分布収束することがわかったので、左辺のうち求めたいλ^以外の部分を右辺に移行します。
      まず、上記の関係からλ^-λは1/√n N(0,λ^2)に分布収束します。
      この1/√nを正規分布の中に入れるとN(0,λ^2/n)となり、ここからλ^2/nの漸近分散が得られます。
      最後にλも右辺に移行して、λ^はN(λ,λ^2/n)に分布収束することがわかります。

      確かにこの部分は途中式が少なく分かりにくかったので、丁寧な式変形になるよう記事を修正しました。
      ご意見ありがとうございました!