回帰分析のためにはパラメータが収束するまで更新を繰り返すことが多いです。しかし、XとYだけの線形回帰の場合は、係数をデータの平均と共分散から計算することができます。
この記事では係数の求め方を紹介・証明し、そこから派生して相関係数の意味についても考察します。
線形回帰の係数
結論
確率変数 \(X,Y\) の関係が
$$Y=aX+b\tag{1}$$
であらわせるとき、それぞれの係数は
$$\begin{align} a&=\frac{v_{xy}}{v_x} \\ b&=\mu_y-\frac{v_{xy}}{v_x}\mu_x\end{align}\tag{2}$$
と書けます。ここで、それぞれの記号の意味は次のとおりです。
- \(\mu_x,\mu_y\) : \(X,Y\) それぞれの平均
- \(v_x\) : \(X\) の分散
- \(v_{xy}\) : \(X,Y\) の共分散
証明
\(X,Y\) に対応するデータ点を \(x_i,y_i\) とします。ただし \(1\leq i\leq N\) です。
回帰直線 \((1)\) が算出した値と実際の値 \(y_i\) の誤差を
$$e_i=ax_i+b-y_i$$
とおき、これらの2乗和を
$$E=\sum_{i=1}^N e^2_i=\sum_{i=1}^N (ax_i+b-y_i)^2$$
と書くことにします。この値が最小になるとき、係数が最適に調整されたとみなします。
\(E\) を \(a\) で微分すると
$$\begin{align}\frac{\partial E}{\partial a}&=\sum_{i=1}^N 2x_i(ax_i+b-y_i) \\ &=2\left(a\sum_{i=1}^N x^2_i+b\sum_{i=1}^N x_i-\sum_{i=1}^N x_iy_i\right)\end{align}$$
です。ここで、
$$\begin{align}
\mu_x&=\frac{1}{N}\sum_{i=1}^N x_i \\
v_x&=\frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)^2 =\frac{1}{N}\sum_{i=1}^N x^2_i-\mu^2_x \\ v_{xy}&=\frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)=\frac{1}{N}\sum_{i=1}^N x_iy_i-\mu_x\mu_y
\end{align}$$
という関係式を利用すると
$$\begin{align}
\frac{\partial E}{\partial a}&=2\{aN(v_x+\mu^2_x)+bN\mu_x-N(v_{xy}+\mu_x\mu_y)\} \\
&=2N\{a(v_x+\mu^2_x)+b\mu_x-(v_{xy}+\mu_x\mu_y)\}
\end{align}$$
と書くことができます。同様に、 \(b\) で微分すると
$$\begin{align}
\frac{\partial E}{\partial b}&=2\sum_{i=1}^N(ax_i+b-y_i) \\
&=2(aN\mu_x+bN-N\mu_y) \\
&=2N(a\mu_x+b-\mu_y)
\end{align}$$
となります。 \(E\) が最小値となる条件を求めるため、
$$\frac{\partial E}{\partial a}=0,\quad\frac{\partial E}{\partial b}=0$$
とおいて式を連立させると
$$\begin{align}\left\{\begin{array}{l} a(v_x+\mu^2_x)+b\mu_x-(v_{xy}+\mu_x\mu_y)&=0 \\ a\mu_x+b-\mu_y&=0 \end{array}\right.\end{align}$$
これを解いて
$$\begin{align} a&=\frac{v_{xy}}{v_x} \\ b&=\mu_y-\frac{v_{xy}}{v_x}\mu_x\end{align}\tag{2}$$
相関係数の意味
\((2)\) の結果を回帰式 \((1)\) に代入すると
$$Y=\frac{v_{xy}}{v_x}X+\mu_y-\frac{v_{xy}}{v_x}\mu_x$$
です。これを変形すると
$$Y-\mu_y=\frac{v_{xy}}{v_x}(X-\mu_x)$$
$$\frac{Y-\mu_y}{\sqrt{v_y}}=\frac{v_{xy}}{\sqrt{v_x}\sqrt{v_y}}\frac{X-\mu_x}{\sqrt{v_x}}\tag{3}$$
となります。ここで、
$$\bar{X}=\frac{X-\mu_x}{\sqrt{v_x}}$$
という処理は、標準化(データ分布が平均0・標準偏差1となるように変形する)と呼ばれます。
つまり、 \((3)\) は標準化された \(X,Y\) の関係を示した式であり、その係数は
$$c=\frac{v_{xy}}{\sqrt{v_x}\sqrt{v_y}}$$
です。これはピアソンの相関係数の定義です。
したがって相関係数とは、 \(X,Y\) の分布スケールを揃えたときの、それらの比例定数であると考えることができます。
もっと知りたいこと、感想を教えてください!