観測された複数のデータがとある分布に基づいていると仮定して、その分布の形状を決定するパラメータを求める際、最尤推定法という手法がよく用いられる。この記事では、観測された結果が正規分布に従うと仮定した際に、最尤推定法を用いて平均 \(\mu\) (または \({\boldsymbol \mu}\) )と分散 \(\sigma^2\) (または共分散行列 \({\boldsymbol \Sigma}\) )を求める方法について解説する。
前提
1次元正規分布
$$\mathcal{N}(x|\mu,\sigma^2) \equiv \frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\} \tag{1}$$
多次元正規分布
$$\mathcal{N}({\bf x}|{\boldsymbol \mu},{\boldsymbol \Sigma}) \equiv \frac{|{\boldsymbol \Sigma}|^{-\frac{1}{2}}}{(2\pi)^\frac{M}{2}}\exp\{-\frac{1}{2}({\bf x}-{\boldsymbol \mu})^T{\boldsymbol \Sigma}^{-1}({\bf x}-{\boldsymbol \mu})\} \tag{2}$$
尤度関数
最尤推定法は、観測結果 \(\mathcal{D}={x^{(1)},x^{(2)},\cdots,x^{(N)}}\) (多次元の場合は \(\mathcal{D}={{\bf x}^{(1)},{\bf x}^{(2)},\cdots,{\bf x}^{(N)}}\) )が与えられたとき
$$p(\mathcal{D}|{\boldsymbol \theta}) \equiv \prod_{i=1}^{N}p(x^{(i)}|{\boldsymbol \theta})$$
(多次元の場合は
$$p(\mathcal{D}|{\boldsymbol \theta}) \equiv \prod_{i=1}^{N}p({\bf x}^{(i)}|{\boldsymbol \theta})$$
)
で定義される尤度関数 \(p(\mathcal{D}|{\boldsymbol \theta})\) を最大化するようなパラメータ \({\boldsymbol \theta}\) を求める方法である。このとき、尤度関数をそのまま用いるよりも自然対数をとった方が計算に便利なため
$$L({\boldsymbol \theta}|\mathcal{D}) \equiv \ln{p(\mathcal{D}|{\boldsymbol \theta})}$$
で定義される対数尤度関数 \(L({\boldsymbol \theta}|\mathcal{D})\) の最大化を目指すことが多い。
1次元正規分布の最尤推定
最尤推定法により求めるパラメータは、 \({\boldsymbol \theta}=(\mu,\sigma^2)\) であり、尤度関数は
$$p(\mathcal{D}|\mu,\sigma^2) = \prod_{i=1}^{N}\mathcal{N}(x^{(i)}|\mu,\sigma^2)$$
と表される。ここで、 \((1)\) 式を代入すると
$$p(\mathcal{D}|\mu,\sigma^2) = (2\pi\sigma^2)^{-\frac{N}{2}}\exp[-\frac{1}{2\sigma^2}\{(x^{(1)}-\mu)^2+(x^{(2)}-\mu)^2+\cdots+(x^{(N)}-\mu)^2\}]$$
$$= (2\pi\sigma^2)^{-\frac{N}{2}}\exp\{-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x^{(i)}-\mu)^2\}$$
となり、対数尤度関数は
$$L(\mu,\sigma^2|\mathcal{D}) = \ln{p(\mathcal{D}|\mu,\sigma^2)} = -\frac{N}{2}\ln{2\pi\sigma^2}-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x^{(i)}-\mu)^2$$
と表される。これを最大化する \(\mu,\sigma^2\) を求めるためには、 \(\mu,\sigma^2\) でそれぞれ偏微分してその結果を0と置けばよいが、ここでは計算を簡略化するため \(\sigma^2\) ではなく \(\sigma^{-2}\) で偏微分する。したがって
$$\frac{\partial L}{\partial \mu} = \frac{\partial}{\partial \mu}[-\frac{N}{2}\ln{2\pi\sigma^2}-\frac{1}{2\sigma^2}\sum_{i=1}^{N}\{(x^{(i)})^2-2x^{(i)}\mu+\mu^2\}]$$
$$= -\frac{1}{\sigma^2}\sum_{i=1}^{N}(\mu-x^{(i)}) = 0$$
より
$$N\mu = \sum_{i=1}^{N}x^{(i)}$$
$$\mu = \frac{1}{N}\sum_{i=1}^{N}x^{(i)}$$
が導かれ、また
$$\frac{\partial L}{\partial \sigma^{-2}} = \frac{\partial}{\partial \sigma^{-2}}\{-\frac{N}{2}(\ln{2\pi}-\ln{\sigma^{-2}})-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x^{(i)}-\mu)^2\}$$
$$= \frac{N\sigma^2}{2}-\frac{1}{2}\sum_{i=1}^{N}(x^{(i)}-\mu)^2 = 0$$
より
$$\frac{N\sigma^2}{2} = \frac{1}{2}\sum_{i=1}^{N}(x^{(i)}-\mu)^2$$
$$\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x^{(i)}-\mu)^2$$
が導かれる。以上より、1次元正規分布の最尤推定では次の関係式が成り立つ。
観測結果 \(\mathcal{D}=\{x^{(1)},x^{(2)},\cdots,x^{(N)}\}\) が1次元正規分布に従うと仮定した場合、その標本平均 \(\hat{\mu}\) と標本分散 \(\hat{\sigma}\) は、最尤推定法により以下のように求められる。
$$\hat{\mu} = \frac{1}{N}\sum_{i=1}^{N}x^{(i)}$$
$$\hat{\sigma^2} = \frac{1}{N}\sum_{i=1}^{N}(x^{(i)}-\hat{\mu})^2$$
多次元正規分布の最尤推定
を参照。
Comments