PR

線形回帰の係数を平均と共分散から計算する方法・相関係数の意味

数学便利帳
Sponsored

回帰分析のためにはパラメータが収束するまで更新を繰り返すことが多いです。しかし、XとYだけの線形回帰の場合は、係数をデータの平均と共分散から計算することができます

この記事では係数の求め方を紹介・証明し、そこから派生して相関係数の意味についても考察します。

線形回帰の係数

結論

確率変数 \(X,Y\) の関係が

$$Y=aX+b\tag{1}$$

であらわせるとき、それぞれの係数は

$$\begin{align} a&=\frac{v_{xy}}{v_x} \\ b&=\mu_y-\frac{v_{xy}}{v_x}\mu_x\end{align}\tag{2}$$

と書けます。ここで、それぞれの記号の意味は次のとおりです。

  • \(\mu_x,\mu_y\) : \(X,Y\) それぞれの平均
  • \(v_x\) : \(X\) の分散
  • \(v_{xy}\) : \(X,Y\) の共分散

証明

\(X,Y\) に対応するデータ点を \(x_i,y_i\) とします。ただし \(1\leq i\leq N\) です。

回帰直線 \((1)\) が算出した値と実際の値 \(y_i\) の誤差を

$$e_i=ax_i+b-y_i$$

とおき、これらの2乗和

$$E=\sum_{i=1}^N e^2_i=\sum_{i=1}^N (ax_i+b-y_i)^2$$

と書くことにします。この値が最小になるとき、係数が最適に調整されたとみなします。

\(E\) を \(a\) で微分すると

$$\begin{align}\frac{\partial E}{\partial a}&=\sum_{i=1}^N 2x_i(ax_i+b-y_i) \\ &=2\left(a\sum_{i=1}^N x^2_i+b\sum_{i=1}^N x_i-\sum_{i=1}^N x_iy_i\right)\end{align}$$

です。ここで、

$$\begin{align}
\mu_x&=\frac{1}{N}\sum_{i=1}^N x_i \\
v_x&=\frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)^2 =\frac{1}{N}\sum_{i=1}^N x^2_i-\mu^2_x \\ v_{xy}&=\frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)=\frac{1}{N}\sum_{i=1}^N x_iy_i-\mu_x\mu_y
\end{align}$$

という関係式を利用すると

$$\begin{align}
\frac{\partial E}{\partial a}&=2\{aN(v_x+\mu^2_x)+bN\mu_x-N(v_{xy}+\mu_x\mu_y)\} \\
&=2N\{a(v_x+\mu^2_x)+b\mu_x-(v_{xy}+\mu_x\mu_y)\}
\end{align}$$

と書くことができます。同様に、 \(b\) で微分すると

$$\begin{align}
\frac{\partial E}{\partial b}&=2\sum_{i=1}^N(ax_i+b-y_i) \\
&=2(aN\mu_x+bN-N\mu_y) \\
&=2N(a\mu_x+b-\mu_y)
\end{align}$$

となります。 \(E\) が最小値となる条件を求めるため、

$$\frac{\partial E}{\partial a}=0,\quad\frac{\partial E}{\partial b}=0$$

とおいて式を連立させると

$$\begin{align}\left\{\begin{array}{l} a(v_x+\mu^2_x)+b\mu_x-(v_{xy}+\mu_x\mu_y)&=0 \\ a\mu_x+b-\mu_y&=0 \end{array}\right.\end{align}$$

これを解いて

$$\begin{align} a&=\frac{v_{xy}}{v_x} \\ b&=\mu_y-\frac{v_{xy}}{v_x}\mu_x\end{align}\tag{2}$$

相関係数の意味

\((2)\) の結果を回帰式 \((1)\) に代入すると

$$Y=\frac{v_{xy}}{v_x}X+\mu_y-\frac{v_{xy}}{v_x}\mu_x$$

です。これを変形すると

$$Y-\mu_y=\frac{v_{xy}}{v_x}(X-\mu_x)$$

$$\frac{Y-\mu_y}{\sqrt{v_y}}=\frac{v_{xy}}{\sqrt{v_x}\sqrt{v_y}}\frac{X-\mu_x}{\sqrt{v_x}}\tag{3}$$

となります。ここで、

$$\bar{X}=\frac{X-\mu_x}{\sqrt{v_x}}$$

という処理は、標準化(データ分布が平均0・標準偏差1となるように変形する)と呼ばれます。

つまり、 \((3)\) は標準化された \(X,Y\) の関係を示した式であり、その係数は

$$c=\frac{v_{xy}}{\sqrt{v_x}\sqrt{v_y}}$$

です。これはピアソンの相関係数の定義です。

したがって相関係数とは、 \(X,Y\) の分布スケールを揃えたときの、それらの比例定数であると考えることができます

もっと知りたいこと、感想を教えてください!