1次元正規変数の平方和の分布

定理

\(\mathcal{N}(0,\sigma)\) に独立に従う \(N\) 個の確率変数 \(x_1,x_2,\cdots,x_N\) と定数 \(a>0\) により定義される確率変数

$$u \equiv a(x_1^2+x_2^2+\cdots+x_N^2)$$

は、自由度 \(N\) 、スケール因子 \(a\sigma^2\) のカイ二乗分布 \(\chi^2(u|N,a\sigma^2)\) に従う。

前提

確率変数 \(u\) についての、自由度 \(k\) 、スケール因子 \(s\) のカイ二乗分布 \(\chi^2(u|k,s)\) は、以下のように定義される。

$$\chi^2(u|k,s) \equiv \frac{1}{2s\Gamma(\frac{k}{2})}(\frac{u}{2s})^{(\frac{k}{2})-1}\exp(-\frac{u}{2s})$$

ここで、 \(\Gamma\) はガンマ関数を表し、確率変数 \(z\) についてのガンマ関数 \(\Gamma(z)\) は以下のように定義される。

$$\Gamma(z) \equiv \int_{0}^{\infty}t^{z-1}e^{-t}dt$$

証明

確率変数の変換に伴う確率密度関数の変換公式

\(M\) 次元の確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) が、 \(z=f({\bf x})=f(x_1,x_2,\cdots,x_M)\) によって \(1\) 次元の確率変数 \(z\) に変換されるとき、 \(z\) の確率密度関数 \(q(z)\) は、 \({\bf x}\) の確率密度関数 \(p(x_1,x_2,\cdots,x_M)\) を用いて以下のように表される。

$$q(z)=\int_{R}\delta(z-f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)d{\bf x}$$

https://ushitora.net/archives/954

より、 \(u\) の確率密度関数 \(q(u)\) は

$$q(u) = \int_{\infty}^{\infty}\delta(u-a(x_1^2+x_2^2+\cdots+x_N^2))\prod_{i=1}^{N}\mathcal{N}(x_i|0,\sigma)dx_1dx_2 \cdots dx_N$$

と表せる。平均 \(0\) 、分散 \(\sigma^2\) の正規分布

$$\mathcal{N}(x_i|0,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{1}{2\sigma^2}x_i^2)$$

を代入すると

$$q(u) = \int_{\infty}^{\infty}\delta(u-a(x_1^2+x_2^2+\cdots+x_N^2))(2\pi\sigma^2)^{-\frac{N}{2}}\exp\{-\frac{1}{2\sigma^2}(x_1^2+x_2^2+\cdots+x_N^2)\}dx_1dx_2 \cdots dx_N$$

となる。ここで、 \(N\) 次元球座標への変数変換を行うと、動径座標を \(r\) としたとき

$$r=x_1^2+x_2^2+\cdots+x_N^2$$

とできるので、被積分関数を \(r\) のみに依存する関数として扱うことができる。 \(N\) 次元空間における単位球表面の面素を \(dS_{1,N}\) とおくと、この変換においては

$$dx_1dx_2 \cdots dx_N=r^{N-1}drdS_{1,N}$$

https://ushitora.net/archives/1005

が成り立つので

$$q(u) = \int_{R}r^{N-1}\delta(u-ar^2)(2\pi\sigma^2)^{-\frac{N}{2}}\exp(-\frac{1}{2\sigma^2}r^2)drdS_{1,N}$$

として、変数変換が実行できる(ただし、 \(R\) は適当な積分区間を表す)。ここで、被積分関数が \(r\) のみに依存することから \(S_{1,N}\) についての積分を別に行うことができ、さらに \(r\) の積分区間が \([0,\infty)\) となることを考慮すると

$$q(u) = \int_{0}^{\infty}r^{N-1}\delta(u-ar^2)(2\pi\sigma^2)^{-\frac{N}{2}}\exp(-\frac{1}{2\sigma^2}r^2)dr \int dS_{1,N}$$

となり、さらに

$$v=ar^2$$

とおいて

$$dv=2ar\,dr=2a\sqrt{\frac{v}{a}}\,dr$$

より、もう一度 \(r\) から \(v\) への変数変換を行うと

$$q(u) = \int_{0}^{\infty}\frac{1}{2a}(\frac{v}{a})^{\frac{N-1}{2}}\cdot(\frac{v}{a})^{-\frac{1}{2}}\delta(u-v)(2\pi\sigma^2)^{-\frac{N}{2}}\exp(-\frac{1}{2\sigma^2}\cdot\frac{v}{a})dv \int dS_{1,N}$$

$$= \frac{1}{2a}(2\pi\sigma^2)^{-\frac{N}{2}}\int_{0}^{\infty}\delta(u-v)(\frac{v}{a})^{\frac{N}{2}-1}\exp(-\frac{v}{2a\sigma^2})dv \int dS_{1,N}$$

となる。この積分を行うには、ディラックのデルタ関数の性質

$$\int_{-\infty}^{\infty}f(x)\delta(x-a)dx=f(a)$$

$$\delta(-x)=\delta(x)$$

https://ushitora.net/archives/897

と、 \(N\) 次元空間における単位球表面の面素と表面積の関係

$$S_{1,M} \equiv \int dS_{1,M} = \frac{2\pi^{\frac{M}{2}}}{\Gamma(\frac{M}{2})}$$

https://ushitora.net/archives/1005

を用いる。これらを適用すると

$$q(u) = \frac{1}{2a}(2\pi\sigma^2)^{-\frac{N}{2}}(\frac{u}{a})^{\frac{N}{2}-1}\exp(-\frac{u}{2a\sigma^2})\frac{2\pi^{\frac{N}{2}}}{\Gamma(\frac{N}{2})}$$

$$= \frac{1}{2a\sigma^2\Gamma(\frac{N}{2})}(\frac{u}{a\sigma^2})^{\frac{N}{2}-1}\exp(-\frac{u}{2a\sigma^2})$$

が導かれ、 \(u\) の確率密度関数は自由度 \(N\) 、スケール因子 \(a\sigma^2\) のカイ二乗分布 \(\chi^2(u|N,a\sigma^2)\) になることがわかる。

1次元正規分布の1次結合についての公式

定理

\(x\) と \(x’\) が独立に正規分布 \(\mathcal{N}(\mu,\sigma)\) に従うとき、定数 \(a,b\) を用いて作られる確率変数 \(ax+bx’\) は、平均 \((a+b)\mu\) 、分散 \(\sigma^2(a^2+b^2)\) の正規分布に従う。

証明

$$v=ax+bx’$$

とおき、この \(v\) の確率分布 \(p(v)\) を考える。上式を変形すると

$$v=a\sigma(\frac{x-\mu}{\sigma})+b\sigma(\frac{x’-\mu}{\sigma})+(a+b)\mu$$

となるが、ここで

$$x_1=\frac{x-\mu}{\sigma}$$

$$x_2=\frac{x’-\mu}{\sigma}$$

とおくと、逆関数が一意に定義できる場合の確率密度関数の変換公式

確率密度関数 \(p(x)\) に従う確率変数 \(x\) が \(y=tx+b\) として変換されるとき、 \(y\) の確率密度関数 \(q(y)\) は

$$q(y) = \frac{1}{|t|}p(\frac{y-b}{t}) \tag{1}$$

と表される。

確率変数の変換に伴う確率密度関数の変換公式

(上のページ中で導出されている変換公式は、この後の証明でも度々利用する)

より、 \(x_1,x_2\) のそれぞれが独立に標準正規分布 \(\mathcal{N}(0,1)\) に従うことがわかる。

(なぜならば、

$$x=\sigma x_1+\mu$$

より

$$Q(x) = \frac{1}{\sigma}P(\frac{x-\mu}{\sigma}) = \frac{1}{\sigma}P(x_1)$$

$$P(x_1) = \sigma Q(x)$$

であり、ここで

$$Q(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}$$

を代入すると

$$P(x_1) = \sigma\cdot\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2\}$$

$$P(x_1) = \frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}{x_1}^2) = \mathcal{N}(0,1)$$

が導かれ、 \(x_2\) についても同様である。)

次に、 \(v\) についての一次式で表される

$$u = \frac{1}{a\sigma}v-\frac{\mu}{a\sigma}(a+b) \tag{2}$$

の確率分布について考える。このとき

$$u = x_1+\beta x_2$$

(ただし、 \(\beta=\frac{b}{a}\))と表せることに注目すると、現在考えているのは、標準正規分布 \(\mathcal{N}(0,1)\) に独立に従う確率変数 \(x_1,x_2\) から作られる確率変数 \(u\) の分布関数 \(q(u)\) を求めるという問題であることがわかる。ここで、逆変換が一意に存在しない場合の確率密度関数の変換公式

\(M\) 次元の確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) が、 \(z=f({\bf x})=f(x_1,x_2,\cdots,x_M)\) によって \(1\) 次元の確率変数 \(z\) に変換されるとき、 \(z\) の確率密度関数 \(q(z)\) は、 \({\bf x}\) の確率密度関数 \(p(x_1,x_2,\cdots,x_M)\) を用いて

$$q(z)=\int_{R}\delta(z-f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)d{\bf x}$$

と表される。

より

$$q(u)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\delta(u-x_1-\beta x_2)\mathcal{N}(x_1|0,1)\mathcal{N}(x_2|0,1)dx_1dx_2$$

が成り立ち、先に \(x_1\) についての積分を実行すると、ディラックのデルタ関数の性質

$$\int_{-\infty}^{\infty}f(x)\delta(x-a)dx=f(a)$$

$$\delta(-x)=\delta(x)$$

https://ushitora.net/archives/897

より

$$q(u)=\int_{-\infty}^{\infty}\mathcal{N}(u-\beta x_2|0,1)\mathcal{N}(x_2|0,1)dx_2$$

となる。ここに、 \(u-\beta x_2\) と \(x_2\) についての標準正規分布

$$\mathcal{N}(u-\beta x_2|0,1)=\frac{1}{\sqrt{2\pi}}\exp\{-\frac{1}{2}(u-\beta x_2)^2\}$$

$$\mathcal{N}(x_2|0,1)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}x_2^2)$$

を代入して

$$q(u)=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\exp\{-\frac{1}{2}(u-\beta x_2)^2\}\cdot\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}x_2^2)dx_2$$

$$=\frac{1}{2\pi}\int_{-\infty}^{\infty}\exp\{-\frac{1}{2}(u-\beta x_2)^2-\frac{1}{2}x_2^2\}dx_2$$

$$=\frac{1}{2\pi}\exp(\frac{1}{2})\int_{-\infty}^{\infty}\exp\{-(1+\beta^2)x_2^2+2\beta ux_2-u^2\}dx_2$$

が得られる。最後にガウス積分

\(a>0\) のとき

$$\int_{-\infty}^{\infty}\exp(-ax^2+bx+c)dx = \sqrt{\frac{\pi}{a}}\exp(\frac{b^2}{4a}+c)$$

より

$$q(u) = \frac{1}{2\pi}\exp(\frac{1}{2})\cdot\sqrt{\frac{2\pi}{1+\beta^2}}\exp(\frac{4\beta^2u^2}{4(1+\beta^2)}-u^2)$$

$$= \frac{1}{\sqrt{2\pi(1+\beta^2)}}\exp(-\frac{1}{2(1+\beta^2)}u^2)$$

$$= \mathcal{N}(0,(1+\beta^2))$$

が導かれる。ここで、 \((2)\) 式より

$$v=a\sigma\,u+(a+b)\mu$$

であることから、 \((1)\) 式より

$$p(v)=\frac{1}{a\sigma}q(\frac{v-(a+b)\mu}{a\sigma})$$

となる。 \(\beta=\frac{b}{a}\) を代入して計算すると

$$p(v) = \frac{1}{a\sigma}\frac{1}{\sqrt{2\pi\{1+(\frac{b}{a})^2}\}}\exp(-\frac{1}{2\{1+(\frac{b}{a})^2\}}(\frac{v-(a+b)\mu}{(a\sigma)})^2)$$

$$= \frac{1}{\sqrt{2\pi\sigma^2(a^2+b^2)}}\exp(-\frac{a}{2(a^2+b^2)}(\frac{v-(a+b)\mu}{(a\sigma)})^2)$$

$$= \frac{1}{\sqrt{2\pi\sigma^2(a^2+b^2)}}\exp(-\frac{1}{2\sigma^2(a^2+b^2)}\{v-(a+b)\mu)^2\}$$

より

$$p(v) = \mathcal{N}((a+b)\mu,\sigma^2(a^2+b^2))$$

が導かれる。

標準正規分布の規格化条件から、M次元単位球の表面積を求める

エントロピーの最大化による正規分布の導出

正規分布

$$\mathcal{N}(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)\}$$

は様々な特徴を持つ重要な分布であるが、この記事では、 \(M\) 個の確率変数 \(x_1,x_2,\cdots,x_M\) が独立に標準正規分布に従うときの同時分布が満たす規格化条件

$$\int_{-\infty}^{\infty}(2\pi)^{-\frac{M}{2}}\exp(-\frac{x_1^2+x_2^2+\cdots+x_M^2}{2})dx_1dx_2\cdots dx_M = 1 \tag{1}$$

より、 \(M\) 次元空間における単位球(半径1の球)の表面積を求める方法について解説するとともに、その過程で、直交座標を極座標に変換する際の考え方について、視覚的な理解を提供する。

基本的な方針

\((1)\) 式は、 \(x_1,x_2,\cdots,x_M\) の \(M\) 次元直交座標によって表現されているが、これを極座標で表現したとき、原点からの距離 \(r\) が

$$r^2=x_1^2+x_2^2+\cdots+x_M^2$$

で表されることを利用すると、被積分関数を \(r\) のみの関数とすることができる。そのために、まず、 \((x_1,x_2,x_3,\cdots,x_M) \to (r,\theta_1,\theta_2,\cdots,\theta_{M-1})\) の変数変換について考えよう。

直交座標→極座標の変換

3次元直交座標→3次元極座標の変換

\(M\) 次元直交座標→ \(M\) 次元極座標の変換を考える前に、3次元の \((x_1,x_2,x_3)\to(r,\theta_1,\theta_2)\) の変換について、図を用いながら視覚的なイメージを示す。

一般に、 \(x_1,x_2,x_3\) は以下の関係式に従って、極座標に変換される。

$$x_1 = r\cos{\theta_2}\sin{\theta_1}$$

$$x_2 = r\sin{\theta_2}\sin{\theta_1}$$

$$x_3 = r\cos{\theta_1}$$

この関係式を用いて、例えば \(r=3\) に固定して \(\theta_1,\theta_2\) を \([0,\frac{\pi}{2}]\) の範囲で動かすと、半径 \(3\) の \(\frac{1}{8}\) 球を得ることができる。なお、下図では \(x_1=X,x_2=Y,x_3=Z\) の対応がある。

ここで、3次元直交座標において \(dx_1dx_2dx_3\) で体積を表すことができた微小領域が、3次元極座標ではどのように表すことができるのかについて考える。3次元極座標における微小領域は、各変数の値を微小量 \(dr,d\theta_1,d\theta_2\) だけ動かすことによって表現することができるので、以下の緑色の空間として図示される(製図のためのPythonコードについてはこの記事の最後を参照)。

この図において、円の球の半径の方向が \(r\) であり、この \(r\) の \(XY\) 平面に垂直な平面上での回転が \(\theta_1\) 、 \(XY\) 平面に平行な平面上での回転が \(\theta_2\) である。ここで、上図の緑で示した微小領域において、球に接している面をこの微小領域の「底面」と呼ぶことにすると、微小領域の高さに相当するのは \(dr\) であることがわかる。

次に、 \(\theta_1\) 方向の回転を図示する。

上図によると、この方向の底面の辺の長さは、弧度法の定義より \(rd\theta_1\) と表せる。最後に \(\theta_2\) 方向の回転を図示すると下図の青線のようになる。

このとき、 \(\theta_2\) 方向の回転における半径(青)は、球の半径(赤)との関係から、 \(r,\theta_1\) を用いて \(r\sin{\theta_1}\) と表せる。よって、この方向の底面の辺の長さは \(r\sin{\theta_1}\cdot d\theta_2\) となる。以上より、極座標における微小領域の体積は

$$dr \cdot rd\theta_1 \cdot r\sin{\theta_1}d\theta_2 = r^2\sin{\theta_1}drd\theta_1d\theta_2$$

と表せる。したがって

$$dx_1dx_2dx_3 = r^2\sin{\theta_1}drd\theta_1d\theta_2$$

が成り立つ。

M次元直交座標→M次元極座標の変換

3次元直交座標→3次元極座標の変換において、微小領域の底面の各辺の長さは

$$\theta_1方向の辺 = rd\theta_1$$

$$\theta_2方向の辺 = r\sin{\theta_1}d\theta_2$$

と表すことができた。この議論を \(M\) 次元極座標に適用すると、 \(M\) 次元極座標における微小領域の底面の各辺の長さは

$$\theta_1方向の辺 = rd\theta_1$$

$$\theta_2方向の辺 = r\sin{\theta_1}d\theta_2$$

$$\theta_3方向の辺 = r\sin{\theta_1}\sin{\theta_2}d\theta_3$$

$$\vdots$$

$$\theta_{M-1}方向の辺 = r\sin{\theta_1}\sin{\theta_2}\cdots\sin{\theta_{M-2}}d\theta_{M-1}$$

と表すことができる。以上より、微小領域の体積は

$$r^{M-1}(\prod_{i=1}^{M-1}\sin{\theta_i}^{M-i-1})drd\theta_1d\theta_2 \cdots d\theta_{M-1} \tag{2}$$

で表される。したがって

$$dx_1dx_2dx_3 \cdots dx_M = r^{M-1}(\prod_{i=1}^{M-1}\sin{\theta_i}^{M-i-1})drd\theta_1d\theta_2 \cdots d\theta_{M-1} \tag{3}$$

と変換できることがわかる。

M次元単位球の表面積

単位球面上の面素

\(dr\) は微小領域の高さに相当するため、\((2)\) 式から \(dr\) を除いた

$$r^{M-1}(\prod_{i=1}^{M-1}\sin{\theta_i}^{M-i-1})d\theta_1d\theta_2 \cdots d\theta_{M-1}$$

は微小領域の底面の面積となる。また、 \(r=1\) の場合を考えると

$$(\prod_{i=1}^{M-1}\sin{\theta_i}^{M-i-1})d\theta_1d\theta_2 \cdots d\theta_{M-1}$$

となるが、これは \(M\) 次元空間の単位球面における微小面積となる。これを \(M\) 次元単位球面上の面素と呼び、 \(dS_{1,M}\) とおいて \((3)\) 式に代入すると

$$dx_1dx_2dx_3 \cdots dx_M = r^{M-1}drdS_{1,M} \tag{4}$$

が成り立つ。

表面積の計算

さて、ここまで長いこと座標変換について考えてきたが、この記事の主題は標準正規分布の規格化条件からM次元単位球の表面積を求めることであるので、そろそろ冒頭の規格化条件の式に戻る。

\((1)\) 式に \((4)\) 式の結果を代入して変数変換を行うと

$$\int_{R}r^{M-1}(2\pi)^{-\frac{M}{2}}\exp(-\frac{r^2}{2})drdS_{1,M} = 1$$

となる(ただし、Rは適当な積分区間を表す)が、被積分関数は \(r\) のみに依存するため、 \(r\) についての積分を \(S_{1,M}\) についての積分とは独立に行うことができる。すなわち \(r\) の積分区間は \([0,\infty)\) であることを考慮すると

$$\int_{0}^{\infty}r^{M-1}(2\pi)^{-\frac{M}{2}}\exp(-\frac{r^2}{2})dr\int dS_{1,M} = 1$$

$$\int dS_{1,M} = \{\int_{0}^{\infty}r^{M-1}(2\pi)^{-\frac{M}{2}}\exp(-\frac{r^2}{2})dr\}^{-1}$$

$$\int dS_{1,M} = 2\pi^{\frac{M}{2}}(\int_{0}^{\infty}(\frac{r^2}{2})^{\frac{M}{2}-1}\exp(-\frac{r^2}{2})dr)^{-1}$$

となる。ここで、左辺は単位球面上の微小領域を全区間で積分したものを表すため、これはすなわち、単位球の表面積 \(S_{1,M}\) に等しい。また、右辺に以下の式で定義されるガンマ関数

$$\Gamma(z) = \int_{0}^{\infty}t^{z-1}e^{-t}dt$$

を代入すると

$$S_{1,M} = \frac{2\pi^{\frac{M}{2}}}{\Gamma(\frac{M}{2})}$$

より、 \(M\) 次元空間における単位球の表面積の公式が得られる。

なお、単位球ではなく半径 \(r\) の場合の表面積は

$$S_{1,M}(r) = \frac{2\pi^{\frac{M}{2}}r^{M-1}}{\Gamma(\frac{M}{2})}$$

となる。

補足

この記事では、 \(M\) 次元空間における直交座標→極座標の変換の導出をやや雑な帰納的手法に基づいて行ったが、より正確な座標変換公式の証明については

が詳しい。また、この記事で使用した画像を作成するためのPythonコードは

Matplotlibで3次元空間に円を描画、透過、境界を描画、線を引く

を参照のこと。

確率変数の変換に伴う確率密度関数の変換公式

確率変数と確率密度関数

置換積分における変数変換の考え方

確率密度関数は積分の形で与えられるため、置換積分の考え方を応用することで、確率変数を変更したときの新しい確率密度関数を求めることができる。この記事では、そのような確率密度関数の変換公式について考える。

逆変換が一意に定義できる場合

\(M\) 次元確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) が、別の \(M\) 次元確率変数 \({\bf y}=(y_1,y_2,\cdots,y_M)\) に、 \(M\) 個の関数 \(T_1,T_2,\cdots,T_M\) により、 \(y_i=T_i(x_1,x_2,\cdots,x_M)\) (ただし、 \(i=1,2,\cdots,M\) )のように変換される場合を考える。この変換をまとめて \({\bf y}={\bf T}({\bf x})\) と書き、また、その逆変換も \({\bf x}={\bf T}^{-1}({\bf y})\) と表す。

変換前・変換後にかかわらず、確率密度関数は必ず規格化条件(全範囲で積分すると1になる)を満たすので、 \({\bf x}\to{\bf y}\) の置換積分を行っても

$$\int_{R}p({\bf x})d{\bf x}=\int_{R’}|\frac{\partial {\bf x}}{\partial {\bf y}}|p({\bf T}^{-1}({\bf y}))d{\bf y}=1$$

が成り立つ。このとき、 \(R’\) は \({\bf y}\) の積分範囲、 \(\frac{\partial {\bf x}}{\partial {\bf y}}\) はこの変換のヤコビアンである。この式から、変換後の確率密度関数 \(q({\bf y})\) は、 \(|\frac{\partial {\bf x}}{\partial {\bf y}}|p({\bf T}^{-1}({\bf y}))\) と表せることがわかる。ここまでの議論を、 \({\bf T}\) が一次変換となる場合と併せて以下にまとめる。

確率変数 \({\bf x}\) についての確率密度関数 \(p({\bf x})\) を、 \({\bf y}={\bf T}({\bf x})\) により \({\bf y}\)に変換するとき、 \({\bf y}\) の確率密度関数 \(q({\bf y})\) は、 \({\bf T}\)の逆変換 \({\bf T}^{-1}\) を用いて次のように求められる。

$$q({\bf y})=|\frac{\partial {\bf x}}{\partial {\bf y}}|p({\bf T}^{-1}({\bf y})) \tag{1}$$

ここで、 \({\bf T}\) が正則な \(M\times M\) 行列 \(T\) と \(M\) 次元ベクトル \({\bf b}\) による一次変換 \({\bf y}=T{\bf x}+{\bf b}\) である場合は、

$$q({\bf y})=|T|^{-1}p(T^{-1}({\bf y}-{\bf b})) \tag{2}$$

が成り立つ。このとき、 \(|T|\) は \(T\) の行列式である。

さらに、 \(M=1\) であるとき、すなわち、 \(y=tx+b\) という変換を考える場合は、

$$q(y)=\frac{1}{|t|}p(\frac{y-b}{t}) \tag{3}$$

と表せる。

\((2)\) 式の証明

\({\bf y}={\bf T}({\bf x})=T{\bf x}+{\bf b}\) より、 \({\bf x}={\bf T}^{-1}({\bf y})=T^{-1}({\bf y}-{\bf b})\) である。ここで、この変換のヤコビアン \(\frac{\partial {\bf x}}{\partial {\bf y}}\) について考える。

逆行列 \(T^{-1}\) の \(i\) 行 \(j\) 列の要素を \(T^{-1}_{ij}\) と表し、また、 \({\bf b}=(b_1,b_2,\cdots,b_M)\) とすると

$$\begin{pmatrix}x_1\\x_2\\\vdots\\x_i\\\vdots\\x_M\end{pmatrix}=\begin{pmatrix}T^{-1}_{11} & T^{-1}_{12} & \cdots & T^{-1}_{1j} & \cdots & T^{-1}_{1M}\\T^{-1}_{21} & T^{-1}_{22} &  &  &  & \vdots \\\vdots &  & \ddots &  &  & \vdots\\T^{-1}_{i1} & T^{-1}_{i2} & \cdots & T^{-1}_{ij} & \cdots & T^{-1}_{iM}\\\vdots &  &  &  & \ddots & \vdots\\T^{-1}_{M1} & \cdots & \cdots & T^{-1}_{Mj} & \cdots & T^{-1}_{MM}\end{pmatrix}\begin{pmatrix}y_1-b_1\\y_2-b_2\\\vdots\\y_j-b_j\\\vdots\\y_M-b_M\end{pmatrix}$$

より

$$x_i=T^{-1}_{i1}(y_1-b_1)+T^{-1}_{i2}(y_2-b_2)+\cdots+T^{-1}_{ij}(y_j-b_j)+\cdots+T^{-1}_{iM}(y_M-b_M)$$

なので

$$\frac{\partial x_i}{\partial y_j}=T^{-1}_{ij}$$

である。ここで、ヤコビアン \(\frac{\partial {\bf x}}{\partial {\bf y}}\) に対応するヤコビ行列

$$\begin{pmatrix}\frac{\partial x_1}{\partial y_1} & \frac{\partial x_1}{\partial y_2} & \cdots & \frac{\partial x_1}{\partial y_j} & \cdots & \frac{\partial x_1}{\partial y_M} \\\frac{\partial x_2}{\partial y_1} & \frac{\partial x_2}{\partial y_2} &  &  &  & \vdots \\\vdots &  & \ddots &  &  & \vdots \\\frac{\partial x_i}{\partial y_1} & \frac{\partial x_i}{\partial y_2} & \cdots & \frac{\partial x_i}{\partial y_j} & \cdots & \frac{\partial x_i}{\partial y_M} \\\vdots &  &  &  & \ddots & \vdots \\\frac{\partial x_M}{\partial y_1} & \frac{\partial x_M}{\partial y_2} & \cdots & \frac{\partial x_M}{\partial y_j} & \cdots & \frac{\partial x_M}{\partial y_M} \end{pmatrix}$$

について考えると、 \(\frac{\partial x_i}{\partial y_j}\) は \(i\) 行 \(j\) 列の要素となる。これが \(T^{-1}_{ij}\) と等しくなるため、ヤコビ行列は逆行列 \(T^{-1}\) そのものに等しいことがわかる。したがって、ヤコビアン \(\frac{\partial {\bf x}}{\partial {\bf y}}\) は逆行列 \(T^{-1}\) の行列式 \(|T^{-1}|\) に等しい。

ここで、逆行列の行列式の公式

$$|A^{-1}|=\frac{1}{|A|}$$

を用いると、

$$\frac{\partial {\bf x}}{\partial {\bf y}}=|T^{-1}|=\frac{1}{|T|}=|T|^{-1}$$

となり、以上の結果を \((1)\) 式に代入することで、 \((2)\) 式が得られる。

\((3)\) 式の証明

\(y=tx+b\) より、 \(x=\frac{y-b}{t}=\frac{1}{t}y-\frac{b}{t}\) である。1変数関数の置換積分の公式より

$$\int_{R}p(x)dx=\int_{R’}p(\frac{y-b}{t})\frac{dx}{dy}dy$$

$$=\int_{R’}\frac{1}{t}p(\frac{y-b}{t})dy$$

が成り立つ。ここで、変換後の確率密度関数 \(q(y)\) が常に正の値を取ることを考えると、

$$q(y)=\frac{1}{|t|}p(\frac{y-b}{t})$$

と表されることがわかる。

\(M\) 変数から \(1\) 変数への変換

今度は逆変換が一意に定義できない場合を考えるが、話を単純にするために、ここでは \(M\) 変数から \(1\) 変数への変換のみを扱う。

\(M\) 次元の確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) に対し、 \(1\) 次元の確率変数 \(z\) が存在し、

$$z=f({\bf x})=f(x_1,x_2,\cdots,x_M)$$

の形で変換されるとする。ここで考えるのは、 \(1\) 次元の確率変数 \(z\) の確率分布 \(q(z)\) を \(p(x_1,x_2,\cdots,x_M)\) から求める方法である。

簡単な例を示すために、 \(M=2\) であり、かつ、\(p({\bf x})=p(x_1,x_2)\) が離散分布である場合を考える。 \(z=x_1+x_2\) であるとすると、例えば \(z=3\) となるのは \((x_1,x_2)=(1,2),(2,1),(0,3),(3,0),\cdots\) などの場合である。したがって、 \(z=3\) となる確率を求めるためには、上記のように条件を満たす組み合わせすべてについて、それが生じる確率を足し合わせる必要がある。これを表現するためには、クロネッカーのデルタを用いて以下のように書く。

$$q(z)=\sum_{x_1,x_2}\delta(z,f(x_1,x_2))p(x_1,x_2)$$

クロネッカーのデルタとディラックのデルタ関数

すなわち、上式では \(f(x_1,x_2)\) が \(z\) と等しくなる場合にのみ、その確率を加算している。これを一般の \(M\) 変数に拡張すると

$$q(z)=\sum_{x_1,x_2,\cdots,x_M}\delta(z,f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)$$

が得られる。

これまでの議論は離散分布に対してのものであったが、上式で用いたクロネッカーのデルタを、その連続関数に対する自然な拡張であるディラックのデルタ関数に置き換えた式

$$q(z)=\int_{R}\delta(z-f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)d{\bf x}$$

は、連続分布における確率密度関数の変換公式となる。以上をまとめると、次のようになる。

\(M\) 次元の確率変数 \({\bf x}=(x_1,x_2,\cdots,x_M)\) が、 \(z=f({\bf x})=f(x_1,x_2,\cdots,x_M)\) によって \(1\) 次元の確率変数 \(z\) に変換されるとき、 \(z\) の確率密度関数 \(q(z)\) は、 \({\bf x}\) の確率密度関数 \(p(x_1,x_2,\cdots,x_M)\) を用いて以下のように表される。

  1. \(q(z)\) が離散分布のとき
    • $$q(z)=\sum_{x_1,x_2,\cdots,x_M}\delta(z,f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)$$
  2. \(q(z)\) が連続分布のとき
    • $$q(z)=\int_{R}\delta(z-f(x_1,x_2,\cdots,x_M))p(x_1,x_2,\cdots,x_M)d{\bf x}$$

置換積分における変数変換の考え方

計算の簡略化や理論展開上の都合から、積分計算においては、しばしば変数を変更した置換積分を行うことが多い。とある関係式によって結ばれる変数どうしを入れ替えるためには、どのような操作が必要になるだろうか。この記事では1変数関数の不定積分における置換積分からはじめて、最後は多変数関数の定積分における置換積分まで、その公式と原理についてみていく。

1変数関数・不定積分の置換積分

公式

1変数関数の不定積分においては、以下の置換積分の公式が成り立つ。

関数\(y=f(x)\)において、\(x\)が\(t\)の\(C^1\)級関数\(\phi(t)\)によって、\(x=\phi(t)\)と表されるとき、

$$\int f(x)dx=\int f(\phi(t))\phi'(t)dt$$

である。

証明

\(y=F(x)=\int f(x)dx\)とする。\(F(x)\)に\(x=\phi(t)\)を代入して得られる式\(y=F(\phi(t))\)を\(t\)で微分すると、

$$\frac{dy}{dt}=\frac{d}{dt}F(\phi(t))$$

$$\frac{dy}{dt}=\frac{d}{d\phi}F(\phi(t))\cdot\frac{d\phi}{dt}$$

$$\frac{dy}{dt}=F'(\phi(t))\cdot\phi'(t)$$

$$\frac{dy}{dt}=f(\phi(t))\cdot\phi'(t)$$

より

$$y=\int f(\phi(t))\phi'(t)$$

である。

1変数関数・定積分の置換積分

公式

定積分の場合、置換積分の公式は以下のように変化する。

\(x=\phi(t),a=\phi(\alpha),b=\phi(\beta)\)のとき

$$\int_{a}^{b}f(x)dx=\int_{\alpha}^{\beta}f(\phi(t))\phi'(t)dt$$

この公式は、不定積分の置換積分から直ちに導かれるが、多変数関数における置換積分を考える前の準備として、その原理を詳しく見ていく。

変数変換における拡大率の考え方

区間\([a,b]\)における定積分は、上図に示すような階段状の長方形の面積の(正負を考慮した)和の極限値としての意味を持つ。変数変換\(x=\phi(t)\)により、\(a=\phi(\alpha),b=\phi(\beta)\)が成り立っているとき、\(t\)の区間\([\alpha,\beta]\)は\(x_k=\phi(t_k)\)を満たすような\(t_k\,(k=0,1,\cdots,n)\)によって分割されていると考えることができる。また、小区間\([x_{k-1},x_k]\)内に任意に取った点\(\xi_k\)に対し、\(\xi_k=\phi(\eta_k)\)を満たすような\(\eta_k\in[t_{k-1},t_k]\)が存在する。ここで、微分係数の定義

$$\phi'(\eta_k)=\lim_{h\to 0}\frac{\phi(\eta_k)-\phi(\eta_k-h)}{h}$$

すなわち

$$\phi'(\eta_k)=\lim_{h\to 0}\frac{\phi(\eta_k)-\phi(\eta_k-h)}{t-(t-h)}$$

において

$$t\to t_k$$

$$t-h\to t_{k-1}$$

$$\phi(\eta_k)\to \phi(t_k)=x_k$$

$$\phi(\eta_{k-1})\to \phi(t_{k-1})=x_{k-1}$$

と置き換えて考えることにより、小区間\([t_{k-1},t_k]\)の長さは変換\(\phi\)によってほぼ\(\phi'(\eta_k)\)倍に拡大されるため、\(x_k-x_{k-1}\simeq\phi'(\eta_k)(t_k-t_{k-1})\)とすることができる。したがって

$$\sum_{k=1}^{n}f(\eta_k)(x_k-x_{k-1})\simeq\sum_{k=1}^{n}f(\phi(\eta_k))\phi'(\eta_k)(t_k-t_{k-1})$$

となる。ここで、\(n\to \infty\)とすると、左辺は\(\int_{a}^{b}f(x)dx\)、右辺は\(\int_{\alpha}^{\beta}f(\phi(t))\phi'(t)dt\)に収束するため、

$$\int_{a}^{b}f(x)dx=\int_{\alpha}^{\beta}f(\phi(t))\phi'(t)dt$$

が導かれる。以上の議論より、定積分の変数変換の際には次の作業が必要になる。

  1. \(x\)を\(\phi(t)\)に書き換える
  2. 拡大率\(\phi'(t)\)を追加で掛ける

ここでいう拡大率は、「変換\(x=\phi(t)\)により、小区間の長さが何倍に拡大されるか」を示している。

多変数関数・定積分の置換積分

2変数関数の場合

2変数関数\(f(x,y)\)に対し\(x=x(u,v),y=y(u,v)\)という変数変換を適用する場合、1変数関数における議論から

$$\int\int_{\Omega}f(x,y)dxdy=\int\int_{D}f(x(u,v),y(u,v))E(u,v)dudv$$

という式が成立することが予想できる。このとき\(E(u,v)\)は拡大率を表すが、2変数関数の場合は小区間から小区間という直線の拡大率ではなく、\(uv\)平面上の領域\(D\)内の小さな面積が、\(xy\)平面上の領域\(\Omega\)内の小さな面積へと移されるときの「面積の拡大率」を意味している。したがって、以下この\(E(u,v)\)がどのように表されるかについてみていく。

\(uv\)平面から\(xy\)平面への1次変換と平行移動による面積の拡大率

はじめに、\(uv\)平面から\(xy\)平面への変数変換が、1次変換と平行移動のみにより行われる場合を考える。つまりこのとき、

$$x=\alpha u+\beta v+\xi$$

$$y=\gamma u+\delta v+\eta$$

と表される。

この場合、\(D\)が4点\(K(u_0,v_0),L(u_0+\lambda,v_0),M(u_0+\lambda,v_0+\kappa),N(u_0,v_0+\kappa)\)を頂点に持つようなごく小さい長方形であるとすると、これらの頂点が\(xy\)平面に写された点\(K’,L’,M’,N’\)は、2つのベクトル\(\vec{K’L’}=(\alpha\lambda,\gamma\lambda),\vec{K’N’}=(\beta\kappa,\delta\kappa)\)によって張られる平行四辺形を形成する。したがって、\(\vec{K’L’}\)と\(\vec{K’N’}\)のなす角を\(\theta\)とすると、四角形\(K’,L’,M’,N’\)の面積\(\mu(\Omega)\)は

$$\mu(\Omega)=|\vec{K’L’}|\cdot|\vec{K’N’}|\cdot\sin\theta$$

$$=|\vec{K’L’}|\cdot|\vec{K’N’}|\sqrt{1-\cos^2\theta}$$

$$=\sqrt{|\vec{K’L’}|^2\cdot|\vec{K’N’}|^2-(|\vec{K’L’}|\cdot|\vec{K’N’}|\cos\theta)^2}$$

$$=\sqrt{|\vec{K’L’}|^2\cdot|\vec{K’N’}|^2-\vec{K’L’}\cdot\vec{K’N’}}$$

$$=\sqrt{(\alpha^2+\gamma^2)(\beta^2+\delta^2)-(\alpha\beta+\delta\gamma)^2}\lambda\kappa$$

$$=\sqrt{(\alpha\delta-\beta\gamma)^2}\mu(D)=|\alpha\delta-\beta\gamma|\mu(D)$$

と表せる。今回は\(D\)が長方形である場合を想定したが、\(D\)が任意の形状である場合も\(D\)を細かい長方形の集合に分割することで同様の議論が成り立つ。よって、以下の定義が導かれる。

\(uv\)平面から\(xy\)平面への変数変換が、1次変換と平行移動のみによって行われるとき、\(uv\)平面上の領域\(D\)の面積\(\mu(D)\)と、それが写される\(xy\)平面上の領域\(\Omega\)の面積\(\mu(\Omega)\)について、以下の関係式が成り立つ。

$$\mu(\Omega)=|\alpha\delta-\beta\gamma|\mu(D) \tag{1}$$

\(uv\)平面から\(xy\)平面への一般の変数変換による面積の拡大率

状況を一般化し、\(x,y\)が\(u,v\)の\(C^1\)級の関数として\(x=x(u,v),y=y(u,v)\)のように表される場合を考える。なお、この変換は1対1であるとしておく。下図の領域\(D\)と領域\(\Omega\)は、この変換を図示したものである。

ここで、\(x,y\)を\(u,v\)の1次式により近似する。すなわち、関数\(x(u,v),y(u,v)\)を領域\(D\)内の点\((a,b)\)でのテイラー展開の1次までの項によって近似すると

$$x\simeq x(a,b)+\frac{\partial x(a,b)}{\partial u}(u-a)+\frac{\partial x(a,b)}{\partial v}(v-b)$$

$$=\frac{\partial x(a,b)}{\partial u}u+\frac{\partial x(a,b)}{\partial v}v+(定数)$$

$$y\simeq y(a,b)+\frac{\partial y(a,b)}{\partial u}(u-a)+\frac{\partial y(a,b)}{\partial v}(v-b)$$

$$=\frac{\partial y(a,b)}{\partial u}u+\frac{\partial y(a,b)}{\partial v}v+(定数)$$

となる。この1次近似式により領域\(D\)を\(xy\)平面に写したものが、上図の赤点線で示した平行四辺形の領域\(\Omega_1\)である。このとき、領域\(\Omega_1\)の面積を\(\mu(\Omega_1)\)とすると、\(\mu(\Omega)\simeq\mu(\Omega_1)\)と考えることができ、\((1)\)式を使って計算すると、

$$\mu(\Omega)\simeq\mu(\Omega_1)=|\frac{\partial x}{\partial u}\frac{\partial y}{\partial v}-\frac{\partial x}{\partial v}\frac{\partial y}{\partial u}|\mu(D)$$

となる。ここで、\(\frac{\partial x}{\partial u}\frac{\partial y}{\partial v}-\frac{\partial x}{\partial v}\frac{\partial y}{\partial u}\)のことをヤコビアンといい、\(\frac{\partial(x,y)}{\partial(u,v)}\)で表す。すなわち、

$$\mu(\Omega)\simeq|\frac{\partial(x,y)}{\partial(u,v)}|\mu(D) \tag{2}$$

である。

2変数関数・定積分の置換積分の公式

以上の議論を踏まえて、2変数関数の定積分における置換積分の公式を導く。

\(uv\)平面上の領域\(D\)が\(n\)個の小領域\(D_1,D_2,\cdots,D_n\)に分割され、それぞれが変換\(x=x(u,v),y=y(u,v)\)によって\(xy\)平面上の小領域\(\Omega_1,\Omega_2,\cdots,\Omega_n\)に写されていると考える。この\(xy\)平面上の小領域は、領域\(\Omega\)を\(n\)分割したものである。

各\(D_k\)上に任意の点\((u_k,v_k)\)を取ると、変換\(x_k=x_k(u_k,v_k),y_k=y_k(u_k,v_k)\)により、点\((x_k,y_k)\)は\(\Omega_k\)上の点となる。ここで、\((2)\)式より、\(\mu(\Omega_k)\simeq|\frac{\partial(x,y)}{\partial(u,v)}|\mu(D_k)\)なので

$$f(x_k,y_k)\mu(\Omega_k)\simeq f(x_k(u_k,v_k),y_k(u_k,v_k))|\frac{\partial(x,y)}{\partial(u,v)}|\mu(D_k)$$

が成り立ち、\(n\)個の小領域すべてについて足し合わせることで

$$\sum_{k=1}^{n}f(x_k,y_k)\mu(\Omega_k)\simeq\sum_{k=1}^{n}f(x_k(u_k,v_k),y_k(u_k,v_k))|\frac{\partial(x,y)}{\partial(u,v)}|\mu(D_k)$$

となる。ここで、\(n\to\infty\)とすると両辺の差は次第に小さくなり、左辺は\(\int\int_{\Omega}f(x,y)dxdy\)、右辺は\(\int\int_{D}f(x(u,v),y(u,v))|\frac{\partial(x,y)}{\partial(u,v)}|dudv\)に収束する。したがって、以下の定理が導かれる。

\(uv\)平面上の領域\(D\)が、変換

$$x=x(u,v),\,y=y(u,v)$$

(ただし、\(x,y\)は\(u,v\)の\(C^1\)級の関数)によって\(xy\)平面上の領域\(\Omega\)へ1対1に写されるとき、以下の式が成り立つ。

$$\int\int_{\Omega}f(x,y)dxdy=\int\int_{D}f(x(u,v),y(u,v))|\frac{\partial(x,y)}{\partial(u,v)}|dudv$$

多変数関数への応用

2変数関数の定積分における置換積分の公式を多変数関数一般に応用すると、次のようになる。

元々の\(n\)次元座標 \({\bf x}=(x_1,x_2,\cdots,x_n)\)が、新しい座標\({\bf y}=(y_1,y_2,\cdots,y_n)\)で、\(x_i=x_i(y_1,y_2,\cdots,y_n)\)と書けているとき、以下の式が成り立つ。

$$\int_{A}f({\bf x})d{\bf x}=\int_{B}g({\bf y})|\frac{\partial {\bf x}}{\partial {\bf y}}|d{\bf y}$$

ただし、\(B\)は新しい座標\({\bf y}\)でみた積分領域\(A\)のことであり、\(g\)は対応する点での\(f\)の値を表す。また、\(d{\bf x}=dx_1dx_2\cdots dx_n,\,d{\bf y}=dy_1dy_2\cdots dy_n\)である。

なお、ヤコビアン\(\frac{\partial {\bf x}}{\partial {\bf y}}\)は、ヤコビ行列

$$\begin{pmatrix} \frac{\partial x_1}{\partial y_1} & \frac{\partial x_1}{\partial y_2} & \cdots & \frac{\partial x_1}{\partial y_n}\\ \frac{\partial x_2}{\partial y_1} & \frac{\partial x_2}{\partial y_2} &  & \vdots \\ \vdots &  & \ddots & \vdots \\ \frac{\partial x_n}{\partial y_1} & \cdots & \cdots & \frac{\partial x_n}{\partial y_n}\end{pmatrix}$$

の行列式に相当する。

ベイズの定理に基づく尤度比計算の導出

とある検査を行う前に「陽性である」と予測される確率のことを検査前確率といい、それに対して、検査結果から判断した予測確率のことを検査後確率という。この検査後確率を求める方法として、検査前確率から検査前オッズを計算し、検査結果が陽性の場合は陽性尤度比、陰性の場合は陰性尤度比を検査前オッズに掛け、その結果得られた検査後オッズから検査後確率を求めるというものがある。これらの指標についての詳細は下の記事を参照のこと。

混同行列の見方とその指標

このように陽性・陰性尤度比を用いて検査後確率を求める計算方法を、この記事では「尤度比計算」と呼称し、以下これが成り立つことを証明する。

記号の意味

この記事では、証明のために以下のような記号を用いる。

  • 大文字のアルファベット:事象を表す(「病気である」など)
  • \(\lnot A\) :事象 \(A\) の否定を表す(「病気である」→「病気でない」など)
  • \(P(A)\) :事象 \(A\) が生じる確率を表す
  • \(P(A|B)\) :事象 \(B\) が生じた状態で事象 \(A\) が生じる条件付き確率を表す

条件付き確率とベイズの定理

尤度比計算の証明

ベイズの定理

尤度比計算は、ベイズの定理

$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$

に基づいているため、以降の証明ではこの定理を頻繁に使用する。

証明

\(X\) :病気である

\(Y\) :検査陽性である

とおき、まずは検査が陽性の場合の尤度比計算

$$検査後オッズ = 検査前オッズ \times 陽性尤度比 \tag{1}$$

を証明する。ベイズの定理より、以下の2式が成り立つ。

$$P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)} \tag{2}$$

$$P(\lnot X|Y) = \frac{P(Y|\lnot X)P(\lnot X)}{P(Y)} \tag{3}$$

\((2)\) 式の辺々を \((3)\) 式で割ると

$$\frac{P(X|Y)}{P(\lnot X|Y)} = \frac{P(Y|X)P(X)}{P(Y)} \times \frac{P(Y)}{P(Y|\lnot X)P(\lnot X)}$$

$$\frac{P(X|Y)}{P(\lnot X|Y)} = \frac{P(X)}{P(\lnot X)} \times \frac{P(Y|X)}{P(Y|\lnot X)} \tag{4}$$

$$\frac{P(X|Y)}{P(\lnot X|Y)} = \frac{P(X)}{P(\lnot X)} \times \frac{P(Y|X)}{1-P(\lnot Y|\lnot X)} \tag{5}$$

となる。なお、 \((4)\) 式から \((5)\) 式の変換には、一般に \(P(A|B)+P(\lnot A|B)=1\) となることを用いた。ここで、 \((5)\) 式の左辺は検査後オッズを意味し、右辺の1つ目の分数は検査前オッズに相当する。また、 \(P(Y|X)\) は感度、 \(P(\lnot Y|\lnot X)\) は特異度に等しいことを考慮すると、右辺の2つ目の分数は陽性尤度比に相当する。したがって、 \((1)\) 式が導かれた。

検査が陰性の場合は、ベイズの定理より

$$P(X|\lnot Y) = \frac{P(\lnot Y|X)P(X)}{P(\lnot Y)}$$

$$P(\lnot X|\lnot Y) = \frac{P(\lnot Y|\lnot X)P(\lnot X)}{P(\lnot Y)}$$

の2式を立てて同様の計算を行うことで

$$検査後オッズ = 検査前オッズ \times 陰性尤度比$$

が導かれる。

条件付き確率とベイズの定理

この記事では「2つの現象が同時に起こる確率」について議論し、その中で現象の独立性条件付き確率について解説する。これらの議論からは、各種検査や機械学習などにおける確率的推論の基礎となる「ベイズの定理」が導ける。

記号の定義

この記事では、以下のような記号を使用する。

  • \(A,B,C,\cdots\):事象(確率変数)
    • それぞれの文字が、「サイコロで6の目が出る」「明日、雨が降る」「検査で陽性が出る」などの事象を表現する。
  • \(P(A)\):事象\(A\)が発生する確率
  • \(P(A,B)\):事象\(A\)と事象\(B\)が同時に発生する確率

確率変数と確率密度関数

独立性と条件付き確率

事象\(A\)の発生が事象\(B\)の発生に依存せず、またその逆も成り立つとき、事象\(A\)と事象\(B\)は互いに独立であるという。例えば、

  • \(A\):サイコロで6の目が出る
  • \(B\):明日、雨が降る

とおくと、事象\(A\)と事象\(B\)は互いに独立である。この場合、事象\(A\)と事象\(B\)が同時に発生する確率\(P(A,B)\)は、それぞれが発生する確率の積で表される。すなわち、

$$P(A,B)=P(A)P(B)$$

である。

しかし、事象\(A\)と事象\(B\)は互いに独立でない場合には、上の議論が成り立たない。このとき\(P(A,B)\)を求めるためには、例えば、「まず事象\(A\)が発生し、」「事象\(A\)が生じている影響下で事象\(B\)が発生する」というように、現象を2分割する必要がある。ここで、「事象\(A\)が生じている影響下で事象\(B\)が発生する」確率を\(P(B|A)\)とおくと、

$$P(A,B)=P(B|A)P(A)$$

が成り立つ。この\(P(B|A)\)のように「事象〇が生じている影響下で事象△が発生する」確率のことを条件付き確率という。条件付き確率を用いると、事象\(A\)と事象\(B\)の独立性は以下のように定義される。

\(P(B|A)=P(B)\)が成り立つとき、事象\(A\)と事象\(B\)は統計的に独立である。

ベイズの定理

前述の例では、事象\(A\)と事象\(B\)が同時に発生する確率を求める際に、事象\(A\)が先に発生したと考えた。しかし、「まず事象\(B\)が発生し、」「事象\(B\)が生じている影響下で事象\(A\)が発生する」と考えても問題ない。したがって、

$$P(A,B)=P(B|A)P(A)=P(A|B)P(B)$$

である。この式の中辺と右辺より、以下のベイズの定理が得られる。

【ベイズの定理】

$$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$$

式の形からは、\(P(A),P(B)\)を用いて、\(P(A|B)\)を\(P(B|A)\)に変換する定理と捉えることができる。しかし、ベイズの定理はその単純さからは想像もできないほど壮大なベイズ統計学という学問体系を作りあげた。また、量子論との関係からはQBismという解釈が生まれた。

ベイズ理論の身近な応用例としては以下を参照のこと。

ベイズの定理に基づく尤度比計算の導出

クロネッカーのデルタとディラックのデルタ関数

クロネッカーのデルタは、条件分岐を数式上で表現できる非常に便利な関数である。

例えば、

のような、特定の条件を満たす場合のみ加算し、それ以外は無視するといったような計算を表現することができる。

クロネッカーのデルタは離散的な変数(自然数の集合など)に対して用いられるが、これを連続変数に対して拡張したものがディラックのデルタ関数である。

クロネッカーのデルタ

定義

クロネッカーのデルタは以下のように定義される。

$$\delta_{ij}=\begin{cases}{1\,(i=j)}\\{0\,(i\neq j)}\end{cases}$$

性質

定義により、クロネッカーのデルタは以下の性質を持つ。

  1. $$\sum_{j}\delta_{ij}a_j=a_i$$
  2. $$\sum_{i}a_i\delta_{ij}=a_j$$
  3. $$\sum_{k}\delta_{ik}\delta_{kj}=\delta_{ij}$$

また、

$$\delta_{ij}=\delta(i, j)$$

と表記することもある。

$$a_0=0,a_1=1,a_2=2,a_3=0,a_4=1,a_5=2$$

$$b_0=1,b_1=2,b_2=3,b_3=4,b_4=5,b_5=6$$

のとき

$$c=\sum_{n=0}^{5}\delta(1,a_n)b_n$$

とおくと

$$c=0+2+0+0+5+0=7$$

より前述のコードが数式的に表現できる。

ディラックのデルタ関数

定義

ディラックのデルタ関数について、以下に2通りの定義を示す。

定義その1

任意の実連続関数\(f:{\bf R}\to{\bf R}\)に対し

$$\int_{-\infty}^{\infty}f(x)\delta(x)dx=f(0)$$

を満たす実数値シュワルツ超関数\(\delta\)のことをディラックのデルタ関数という。

定義その2(簡単)

ディラックのデルタ関数\(\delta(x)\)は以下を満たす。

  1. $$\delta(x)=\begin{cases}{\infty\,(x=0)}\\{0\,(x\neq 0)}\end{cases}$$
  2. $$\int_{-\infty}^{\infty}\delta(x)dx=1$$

 

すなわち、ディラックのデルタ関数は\(x=0\)のときに\(\infty\)となり、それ以外の\(x\)ではすべて\(0\)である特殊な関数であり、全区間を積分すると\(1\)になる。実用上は定義その2の理解で問題ない。

性質

ディラックのデルタ関数は、クロネッカーのデルタ関数

$$\sum_{i=-\infty}^{\infty}f_i\delta_{ij}=f_j$$

の、連続変数への自然な拡張になっている。また、ディラックのデルタ関数は以下の性質を持つ。

  1. $$\int_{-\infty}^{\infty}f(x)\delta(x-a)dx=f(a)$$
  2. $$\delta(-x)=\delta(x)$$
  3. $$\delta(x)=\frac{1}{2\pi}\sum_{n=-\infty}^{\infty}e^{inx}$$
  4. $$\delta(ax)=\frac{1}{a}\delta(x)\,(a>0)$$

性質1.の解説

性質1.は特に無限積分である必要はない。積分区間\([\alpha,\beta]\)が\(\alpha<a<\beta\)のように\(a\)を含んでいるならば、

$$\int_{\alpha}^{\beta}f(x)\delta(x-a)dx=f(a)$$

となり、\(f(x)\)に\(\delta(x-a)\)をかけて\(a\)を含む区間で積分すると、\(f(a)\)の値のみを抽出することができる。

性質2.の解説

ディラックのデルタ関数は偶関数である。

性質3.の解説

この式はディラックのデルタ関数の複素形フーリエ級数による展開を示したものである。

フーリエ級数の定義と性質

複素形フーリエ級数で展開できるのは周期関数に限られるため、まず、

$$\delta(x-2k\pi)=\frac{1}{2\pi}\sum_{n=-\infty}^{\infty}e^{inx}$$

を考える。このとき、

$$\delta(x-2k\pi)=\begin{cases}{\infty\,(x=2k\pi)}\\{0\,(x\neq 2k\pi)}\end{cases}\,(k=0,1,2,\cdots)$$

であり、すなわち周期\(2\pi\)で値が\(\infty\)となる関数を考えている。ここで、この関数の定義域を\([-\pi,\pi]\)に絞ることによって、左辺はディラックのデルタ関数に等しくなる。したがって、

$$\delta(x-2k\pi)=\frac{1}{2\pi}\sum_{n=-\infty}^{\infty}c_n e^{inx}$$

である。この式の係数は

$$c_n=\frac{1}{2\pi}\int_{-\pi}^{\pi}\delta(x)e^{-inx}dx$$

より求められ、\(f(x)=e^{-inx}\)とおくと\(f(0)=e^0=1\)なので

$$c_n=\frac{1}{2\pi}f(0)=\frac{1}{2\pi}$$

となる。したがって、任意の整数\(n\)について\(c_n=\frac{1}{2\pi}\)より、

$$\delta(x)=\frac{1}{2\pi}\int_{-\pi}^{\pi}\delta(x)f(x)dx=\frac{1}{2\pi}\sum_{n=-\infty}^{\infty}e^{inx}$$

が成り立つ。

性質4.の解説

\(ax=t\)とおくと、

$$\frac{d(ax)}{dt}=\frac{dt}{dt}$$

$$a\frac{dx}{dt}=1$$

$$adx=dt$$

より、

$$\delta(x)dx=\delta(t)dt=\delta(ax)adx.$$

したがって、

$$\delta(ax)=\frac{1}{a}\delta(x)$$

が成り立つ。

フーリエ級数の定義と性質

フーリエ級数は、複雑な周期関数や周期信号を単純なサイン波とコサイン波の和として表す手法である。当初は金属板の熱伝導の研究において導入されたが、現在では電気工学や量子力学など、周期的な量を扱う分野において広く利用されている。

ようは複雑で正体不明な周期関数を、単純なサイン波とコサイン波に分解し、分解した単純な波の解を求めることで、もともとの関数の性質を見ようという考え方である。そして、この波の重ね合わせのことをフーリエ級数という。

前提

区間\([-a,a]\)で関数\(f(x)\)が、

  • 偶関数ならば、\(\int_{-a}^a f(x)dx=2\int_0^a f(x)dx\)
  • 奇関数ならば、\(\int_{-a}^a f(x)dx=0\)

また、\([-\pi,\pi]\)で\(m,n\)を自然数とすると、

  1. \(\int_{-\pi}^\pi \cos nx\,dx=0\)
  2. \(\int_{-\pi}^\pi \sin nx\,dx=0\)
  3. \(\int_{-\pi}^\pi \cos mx \cos nx\,dx=\begin{cases}\pi\,(m=n)\\0\,(m\neq n)\end{cases}\)
  4. \(\int_{-\pi}^\pi \sin mx \sin nx\,dx=\begin{cases}\pi\,(m\neq n)\\0\,(m=n)\end{cases}\)
  5. \(\int_{-\pi}^\pi \cos mx \sin nx\,dx=0\)

と、なることを確認されたい。

フーリエ級数の定義

周期\(2\pi\)を持つ関数\(f(x)\)が三角関数によって、

$$f(x)=\frac{a_0}{2}+\sum_{n=1}^\infty(a_n\cos nx+b_n\sin nx)$$

$$=\frac{a_0}{2}+a_1\cos x+a_2\cos 2x+\cdots+a_n\cos nx+\cdots$$

$$+b_1\sin x+b_2\sin 2x+\cdots+b_n\sin nx+\cdots \tag{1}$$

の形で表されたとする。この式を三角級数という。次に、この式に以下の操作を行う。

  1. 両辺に\(1\)をかけて項別積分
    • \(\int_{-\pi}^\pi f(x)dx=\frac{a_0}{2}\int_{-\pi}^\pi dx=\pi a_0\)(前提:1., 2.)
  2. 両辺に\(\cos mx\)をかけて項別積分
    • \(\int_{-\pi}^\pi f(x)\cos mx\,dx=a_m\int_{-\pi}^\pi \cos mx\cos mx\,dx=\pi a_m\)(前提:3., 5.)
  3. 両辺に\(\sin mx\)をかけて項別積分
    • \(\int_{-\pi}^\pi f(x)\sin mx\,dx=b_m\int_{-\pi}^\pi \sin mx\sin mx\,dx=\pi b_m\)(前提:4., 5.)

するとこの結果から、係数\(a_0,a_1,a_2,\cdots,\,b_1,b_2,\cdots\)が決定する。

しかし、上記の計算で行った項別積分はあくまで形式的なものであるため、このようにして求められた係数を持つ\((1)\)式の三角級数が収束するとは限らず、また収束するとしても、もとの関数\(f(x)\)に一致するとは限らない。そのため、関数\(f(x)\)の三角関数による表現を等号\(=\)を用いて表すのではなく、\(\sim\)を用いて表すことにする。したがって、以上の内容をまとめると次のようになる。

周期\(2\pi\)を持つ関数\(f(x)\)について、

$$f(x)\sim\frac{a_0}{2}+\sum_{n=1}^{\infty}(a_n\cos nx+b_n\sin nx) \tag{2}$$

と表すことができ、右辺の係数は以下の式で与えられる。

$$a_n=\frac{1}{\pi}\int_{-\pi}^{\pi}f(x)\cos nx\,dx\,(n=0,1,2,\cdots) \tag{3}$$

$$b_n=\frac{1}{\pi}\int_{-\pi}^{\pi}f(x)\sin nx\,dx\,(n=1,2,\cdots) \tag{4}$$

\((2)\)式の右辺の三角級数を、関数\(f(x)\)のフーリエ級数またはフーリエ展開という。また、\((3)\)式・\((4)\)式によって定められる係数のことを、関数\(f(x)\)のフーリエ係数といい、特に、\(a_n\)のことをフーリエ余弦係数、\(b_n\)のことをフーリエ正弦係数という。なお、定数項を\(\frac{a_0}{2}\)としたのは、定数項をフーリエ余弦係数の一員として\((3)\)式により一括して表すためである。

以下ではフーリエ級数の\(a_n\)と\(b_n\)を持つ項までの和を\(S_n\)として表し、その一部のみを取り出すこととする。すなわち、

$$S_n=\frac{a_0}{2}+a_1\cos x+a_2\cos 2x+\cdots+a_n\cos nx$$

$$+b_1\sin x+b_2\sin 2x+\cdots+b_n\sin nx$$

であり、この\(S_n\)のことをフーリエ級数の第\(n\)部分和という。

周期\(2\pi\)を持ち、区間\((-\pi,\pi]\)で定義される関数

$$f(x)=\begin{cases}0\,(-\pi<x<0)\\1\,(0\leq x\leq\pi)\end{cases}$$

について考える。この関数のフーリエ係数は

$$a_0=\frac{1}{\pi}\int_{0}^{\pi}dx=1$$

$$a_n=\frac{1}{\pi}\int_{0}^{\pi}\cos nx\,dx=\frac{1}{\pi n}[\sin nx]_{0}^{\pi}=0$$

$$b_n=\frac{1}{\pi}\int_{0}^{\pi}\sin nx\,dx=\frac{1}{\pi n}[-\cos nx]_{0}^{\pi}$$

$$=\frac{1}{\pi n}\{-(-1)^n+1\}=\begin{cases}0\,(nが偶数)\\\frac{2}{\pi n}\,(nが奇数)\end{cases}$$

となる。なお、\(a_0\)は分母が0となることを避けるため別に計算した。

以上の結果から、

$$f(x)\sim\frac{1}{2}+\frac{2}{\pi}(\sin x+\frac{1}{3}\sin 3x+\frac{1}{5}\sin 5x+\cdots)$$

$$=\frac{1}{2}+\frac{2}{\pi}\sum_{n=1}^{\infty}\frac{1}{2n-1}\sin(2n-1)x$$

となり、\(f(x),S_1,S_3,S_5\)を図示すると以下のようになる。

図によると、\(f(x)\)が連続な点では\(n\)が大きくなるにつれて\(S_n\)が\(f(x)\)に近づいており、不連続点\(x_0\)においては\(S_n\)が\(f(x_0-0)\)と\(f(x_0+0)\)の中点を通っている。以上は定理として次のようにまとめられる。

周期\(2\pi\)の関数\(f(x)\)が区分的に滑らかならば、\(f(x)\)のフーリエ級数は

  1. \(f(x)\)が連続な点\(x\)では\(f(x)\)に収束する。
  2. \(f(x)\)が不連続な点\(x\)では

$$\frac{1}{2}\{f(x-0)+f(x+0)\}$$

に収束する。

また、不連続点\(x_0\)の付近では\(S_n\)がもとの関数\(f(x)\)の値を通り越して大きく(小さく)なっているが、この「飛び出し」は\(n\)が大きくなっても無くならず、ある有限極限値に近づく。この現象をギブス現象という。

【ギブス現象】

区分的連続微分可能な周期関数のフーリエ級数において、その関数が第1種不連続となる点(ギャップを持つ不連続点)付近では、フーリエ級数の\(n\)次部分和が大きく振動して、部分和の最大値が関数自体の最大値より大きくなる現象

フーリエ余弦級数・フーリエ正弦級数

\(f(x)\)が偶関数、または奇関数のときのフーリエ係数について考える。

  1. \(f(x)\)が偶関数のとき
    • \(f(x)\cos x\)は偶関数、\(f(x)\sin x\)は奇関数より、
    • $$a_n=\frac{2}{\pi}\int_{0}^{\pi}f(x)\cos nx\,dx \tag{5}$$
    • $$b_n=\frac{1}{\pi}\int_{-\pi}^{\pi}f(x)\sin nx\,dx=0$$
  2. \(f(x)\)が奇関数のとき
    • \(f(x)\cos x\)は奇関数、\(f(x)\sin x\)は偶関数より、
    • $$a_n=\frac{1}{\pi}\int_{-\pi}^{\pi}f(x)\cos nx\,dx=0$$
    • $$b_n=\frac{2}{\pi}\int_{0}^{\pi}f(x)\sin nx\,dx \tag{6}$$

以上より、次のことが言える。

周期\(2\pi\)を持つ関数\(f(x)\)について、\(f(x)\)が、

  1. 偶関数ならば、\((5)\)式で与えられる\(a_n\)を係数として
    • $$f(x)\sim\frac{a_0}{2}+\sum_{n=1}^{\infty}a_n\cos nx \tag{7}$$
  2. 偶関数ならば、\((6)\)式で与えられる\(b_n\)を係数として
    • $$f(x)\sim\sum_{n=1}^{\infty}b_n\sin nx \tag{8}$$

と表される。

関数\(f(x)\)が区間\((-\pi,\pi]\)で定義されているとき、任意の整数\(k\)に対して

$$f(x+2kx)=f(x)\,(-\pi<x\leq\pi)$$

と定義すると、\(f(x)\)は全区間で定義され、周期\(2\pi\)を持つ関数となる。

また、関数\(f(x)\)が区間\([0,\pi]\)で定義されているときには、

$$f(-x)=f(x)$$

と定義することによって、定義域を([-\pi,\pi]\)に拡張すると、\(f(x)\)は偶関数になる。そのフーリエ級数は\((7)\)式で与えられ、このとき\((7)\)式を関数\(f(x)\)の\([0,\pi]\)におけるフーリエ余弦級数またはフーリエ余弦展開という。

同様に、

$$f(-x)=-f(x)$$

と定義して、定義域を([-\pi,\pi]\)に拡張した場合、\(f(x)\)は偶関数になる。そのフーリエ級数は\((8)\)式で与えられ、このとき\((8)\)式を関数\(f(x)\)の\([0,\pi]\)におけるフーリエ正弦級数またはフーリエ正弦展開という。

複素形フーリエ級数

三角関数を用いて表されるフーリエ級数を、オイラーの公式により変換することを考える。

オイラーの公式

$$e^{ix}=\cos x+i\sin x$$

$$e^{-ix}=\cos x-i\sin x$$

より、

$$\cos x=\frac{1}{2}(e^{ix}+e^{-ix})$$

$$\sin x=\frac{1}{2}(e^{ix}-e^{-ix})$$

が導かれ、これを用いると

$$a_n\cos nx+b_n\sin nx=a_n\frac{e^{inx}+e^{-inx}}{2}-ib_n\frac{e^{inx}-e^{-inx}}{2}$$

$$=\frac{a_n-ib_n}{2}e^{inx}+\frac{a_n+ib_n}{2}e^{-inx}$$

となる。ここで、

$$c_0=\frac{a_0}{2},\,c_n=\frac{a_n-ib_n}{2},\,c_{-n}=\frac{a_n+ib_n}{2}\,(n=1,2,\cdots)$$

とおくと、フーリエ級数は

$$f(x)\sim\frac{a_0}{2}+\sum_{n=1}^{\infty}(a_n\cos nx+b_n\sin nx)$$

$$=c_0+\sum_{n=1}^{\infty}(c_n e^{inx}+c_{-n} e^{-inx})$$

$$=\cdots+c_{-n} e^{-inx}+\cdots+c_{-1} e^{-ix}+c_0 e^0+c_{1} e^{ix}+\cdots+c_n e^{inx}+\cdots$$

$$=\sum_{n=-\infty}^{\infty}c_n e^{inx}$$

と表される。このときのフーリエ係数は\((3),(4)\)式より、

$$c_n=\frac{a_n-ibn}{2}$$

$$=\frac{1}{2}(\frac{1}{\pi}\int_{-\pi}^{\pi}f(x)\cos nx\,dx+\frac{1}{\pi}\int_{-\pi}^{\pi}f(x)\sin nx\,dx)$$

$$=\frac{1}{2\pi}\int_{-\pi}^{\pi}(f(x)\cos nx-i\sin nx)dx$$

$$=\frac{1}{2\pi}\int_{-\pi}^{\pi}f(x)e^{-inx}dx$$

で表される。\(c_n\)と\(c_{-n}\)は共役であるから、上式は\(n\)が負のときも成り立つ。したがって、

周期\(2\pi\)を持つ関数\(f(x)\)は次の形に表される。

$$f(x)\sim\sum_{n=-\infty}^{\infty}c_n e^{inx} \tag{9}$$

$$c_n=\frac{1}{2\pi}\int_{-\pi}^{\pi}f(x)e^{-inx}dx\,(n=0,\pm 1,\pm 2,\cdots) \tag{10}$$

このとき、\((9)\)式の右辺を関数\(f(x)\)の複素形フーリエ級数、その係数\((10)\)を複素形フーリエ係数という。これと対応して、\((2)\)式のフーリエ級数を実数形という。

汎関数と変分法

最初に大まかなイメージを示す。

汎関数とは「関数の関数」のことであり、汎関数の値はそれが引数としてとる関数により変化する。すなわち、変数\(x\)の関数である\(y(x)\)の値は変数\(x\)に依存するのと同様に、関数\(y\)の汎関数である\(I[y]\)の値は関数\(y\)に依存する。

変分法とは汎関数\(I[y]\)を最大(極大)または最小(極小)とする関数\(y_0\)を求めるための手法であり、その原理は関数\(f(x)\)が最大(極大)または最小(極小)となる点において\(f'(x)=0\)となることを利用する手法に類似する。

汎関数の定義

まず、関数の集合のことを関数族という。そのうえで、汎関数は以下のように定義される。

\({\bf I}\)を関数族とし、おのおのの関数\(y \in {\bf I}\)に1つの数値\(I[y]\)が対応しているとき、この対応を与える\(I\)を汎関数という。

なお、微分学で考える関数と区別するため、\(I\)の括弧には\([\) \(]\)を用いる。

汎関数の非常に単純な例としては、定積分

$$I[y]=\int_a^b y(x)dx$$

が挙げられる。また、\(y\)を変数\(x\)の関数、\(y’\)をその導関数とし、\(F\)は\(x,y,y’\)の与えられた関数とすると、

$$I[y]=\int_a^b F(x,y(x),y'(x))dx \tag{1}$$

も汎関数となる。このように、汎関数はしばしば関数と導関数を含む定積分として表される。

以下では次のことを前提として議論を進める。

  • \(F(x,y,y’)\)は\({\bf R}^3\)における開集合で3回連続微分可能
  • \({\bf I}\)に属する関数は有界な閉区間で連続微分可能
  • \({\bf I}\)に属する関数のグラフは\(F\)の定義域の内部に含まれる

変分の定義とその性質

変分の定義

\((1)\)式を変形しながら変分の定義を導く。

\(\eta\)を区間\([a,b]\)で連続微分可能な任意の関数、\(\epsilon\)を定数とする。\(\epsilon\)が十分に小さいならば\(y+\epsilon\eta \in {\bf I}\)となるため、

$$I[y+\epsilon\eta]=\int_a^b F(x,y+\epsilon\eta,y’+\epsilon\eta’)dx$$

が定義できる。これは\(y,\eta\)を固定すると\(\epsilon\)の関数として見ることができるため、

$$\Phi(\epsilon)=I[y+\epsilon\eta]$$

とおくと、

$$\Phi'(\epsilon)=\int_a^b[F_y(x,y+\epsilon\eta,y’\epsilon\eta’)\eta+F_{y’}(x,y+\epsilon\eta,y’\epsilon\eta’)\eta’]dx$$

が導ける。ここで、\(F_y,F_{y’}\)は連続であり、\(\Phi'(\epsilon)\)は\(\epsilon\)の関数として\(\epsilon\)の近傍で連続であることから、マクローリンの定理より、2次以上の項を\(o(\epsilon)\)とおいて、

$$\Phi(\epsilon)=\Phi(0)+\Phi'(0)\epsilon+o(\epsilon)\tag{2}$$

と表される。

\(\epsilon\)は微小量であるため、これを変数\(\lambda\)の微分と考え、\(d\lambda\)とおく。すると、\((2)\)式の右辺第2項\(\Phi'(0)d\lambda\)は\(\Phi(\lambda)\)の\(\lambda=0\)における微分である。この\(d\lambda\)に対応する\(\eta d\lambda(=\epsilon\eta)\)を変関数\(y\)の変分といい、\(\delta y\)で表す。また、\((2)\)式の第2項(すなわち、1次の項)を汎関数\(I[y]\)の\(y\)における一次変分といい、\(\delta I[y]\)で表す。すなわち、

$$\delta I[y]=\int_a^b[F_y(x,y,y’)\delta y+F_{y’}(x,y,y’)\delta y’]dx \tag{3}$$

となる。また、上記の議論を導関数についても適用すると

$$\delta y’=\eta’d\lambda=(\eta d\lambda)’=(\delta y)’$$

が示される。

変分の性質

変分\(\delta I[y]\)は\(y\)の変分\(\delta y\)にも依存するため、一次変分\(\delta I[y]\)自身も\(y,\delta y\)の汎関数である。これを\(I'[y,\delta y]\)で表すと、

$$\delta I[y]=I'[y,\delta y]$$

となる。ここで\(y\)を固定すると\(I'[y,\delta y]\)は\(\delta y\)の汎関数として線形である。すなわち、\(I’\)は\({\bf C}^1[a,b]\)において定義され、任意の\(\delta y_1,\delta y_2 \in {\bf C}^1[a,b]\)と任意の定数\(c_1,c_2\)に対して

$$I'[y,c_1\delta y_1+c_2\delta y_2]=c_1I'[y,\delta y_1]+c_2I'[y,\delta y_2]$$

を満たす。これは\((3)\)式からすぐに確かめられる。

最大(極大)・最小(極小)との関係

変分学の主な興味の対象は、与えられた汎関数を最大(極大)または最小(極小)にする関数を求めることにある。数学や物理学の重要問題の多くは多変数関数を含むため、その解を求めるために変分法が利用される例は少なくない。(例えば、下記参照)

エントロピーの最大化による正規分布の導出

汎関数が、関数\(y^*(x)\)において局所的に最大(極大)値または最小(極小)値をとる時、\(y^*(x)\)を極値関数と呼ぶ。また、汎関数の一次変分を0にする関数\(y_0(x)\)を停留関数といい、このときの\(I\)の値を停留値と呼ぶ。\(y\)が停留関数であることは、\(y\)が極値関数であるための必要条件である。

したがって、\((1)\)式のような汎関数の形で与えられる問題の最大(極大)値または最小(極小)値を求める際には、一次変分\(\delta I[y]\)を導出して

$$\delta I[y]=0$$

とおいて停留関数・停留値を求める。この手法は、一変数関数\(f(x)\)の値を最大にする\(x\)を求めるために\(f'(x)=0\)とすることに似ている。