Kendall 順位相関係数の確率分布を導出する

確率・統計
Sponsored

概要

この記事では、Kendall 順位相関係数を用いて計算した統計量が、標準正規分布にしたがうことの証明を行う。

Kendall 順位相関係数の定義については

Kendall 順位相関係数の定義と確率分布
この記事では、2配列の順序の相関を表す指標である、Kendall 順位相関係数について解説する。 まず、同義の Kendall の \(\tau\) (タウ)を最も簡単な形式で定義した後、2配列間の相関係数としてそれを拡張する。 また、この...

を参照のこと。

命題

Kendall 順位相関係数 \(\tau\) を用いて

$$z\equiv\tau\sqrt{\frac{9n(n-1)}{2(2n+5)}}$$

という統計量 \(z\) を定義したとき、この \(z\) は標準正規分布 \(\mathcal{N}(0, 1)\) にしたがう。

導出

\(z\) が標準正規分布にしたがうとき、 \(\tau\) 自体は平均 \(0\) 、分散 \(\frac{2(2n+5)}{9n(n-1)}\) の正規分布にしたがう。

これを導出するために、まず「概要」で示した記事の定義にしたがって、スコア \(S\) の平均と分散を求める。

\(S\) の平均は正負の対称性を考えて \(0\) である。

また、取り得る範囲は \(n\) に依存し

\(n\)\(S(個数)\)
\(1\)\(0(1)\)
\(2\)\(-1(1), +1(1)\)
\(3\)\(-3(1), -1(2), +1(2), +3(1)\)
\(4\)\(-6(1), -4(3), -2(5), 0(6), +2(5), +4(3), +6(1)\)
\(5\)\(-10(1), -8(4), -6(9), -4(15), -2(20), 0(22), +2(20), +4(15), +6(9), +8(4), +10(1)\)

と続く。

なお、 \(S\) の値の数値の横に示したのは、その値をとる配列の数である。

例えば \(n=3\) のとき、数字 \(1,2,3\) の並べ方は \(3!=6\) 通り存在するが、それらについて

配列\(S\)
123+3
132+1
213+1
231-1
312-1
321-3

と、 \(S\) の値を求めることができる。

この、「配列の要素数が \(n\) 個のとき、スコアが \(S\) となる並べ方」を \(u_{n, S}\) とおくと、以下の漸化式が成立することがわかる。

$$u_{n+1,S}=u_{n,S-n}+u_{n,S-(n-2)}+\ldots+u_{n,S+(n-2)}+u_{n,S+n}\tag{1}$$

これは以下の理由による。

例えば \(1\) から \(n\) までの数字でスコア \(S\) となっている配列があり、その先頭に \(n+1\) を追加すると、これはその右にある \(n\) 個のどの数字よりも小さいので、スコアが \(-n\) を加算することになる。

\(n+1\) を先頭から2番目に挿入した場合のスコアの変動は \(-(n-2)\) であり、同様に3番目、4番目…に挿入した場合は \(-(n-4), -(n-6), \ldots\) となる。

これを、数値 \(n+1\) を挿入してスコアを \(S\) にできる要素数 \(n\) の配列すべてについて考えることで、漸化式 \((1)\) が導出できる。

これを踏まえて、以下の多項式を考える。

$$f^{(n)}\equiv1\cdot(x^{-1}+x^{1})(x^{-2}+1+x^{-2})\cdots(x^{-(n-1)}+x^{-(n-3)}+\ldots+x^{n-3}+x^{n-1})\tag{2}$$

さらに「 \(x\) で偏微分した後、 \(x\) を掛ける」という演算 \(x\frac{\partial}{\partial x}\) を \(\theta\) と定義し、式 \(y\) に \(x=a\) を代入することを \(y_{x=a}\) と書くと、 \(f^{(n)}\) は以下の性質を満たすよう設計されていることがわかる。

  • \(x^{S}\) の係数が、要素数 \(n\) の配列でスコア \(S\) となるものの個数
  • \(f^{(n)}_{x=1}=n!\) ( \(=\mu_{0}^{(n)}\) とおく)
  • 要素数 \(n\) の配列における \(S\) の平均を \(\mu_{1}^{(n)}\) とおくと、 \((\theta f^{(n)})_{x=1}=\mu_{0}^{(n)}\mu_{1}^{(n)}\)
  • 要素数 \(n\) の配列における \(S\) の分散を \(\mu_{2}^{(n)}\) とおくと、 \((\theta^{2}f^{(n)})_{x=1}=\mu_{0}^{(n)}\mu_{2}^{(n)}\)

\(n=3\) のときを例にこの性質を確認する。

$$f^{(3)}=(x^{-1}+x^{1})(x^{-2}+1+x^{2})$$

$$=(x^{-1}x^{-2})+(x^{-1}x^{0}+x^{1}x^{-2})+(x^{-1}x^{2}+x^{1}x^{0})+(x^{1}x^{2})\tag{3}$$

$$=x^{-3}+2x^{-1}+2x^{1}+x^{3}\tag{4}$$

より、表1と照らし合わせて性質1が成り立っていることがわかる( \(u_{3,-3}=1, u_{3,-1}=2,u_{3,-1}=2,u_{3,3}=1\) )。

また、 \(f^{(2)}=x^{-1}+x^{1}\) より \(u{2,-1}=1, u{2,1}=1\) となっていることも確認できる。

ここで、 \(f^{(2)}\) が \(f^{(3)}\) になるに際して新たに付け足された \((x^{-2}+1+x^{2})=(x^{-2}+x^{0}+x^{2})\) の各次数が、「要素数 \(n\) の配列に数字 \(n+1\) を追加したとき、変化するスコアの値」であると考えると、途中式 \((3)\) の計算から、漸化式 \((1)\) と同様の更新が行われていることがわかる。

また、 \(x=1\) を代入することで、この係数の総和をとる。

項数から総和が \(n!\) となることは明らかであり、これは要素数 \(n\) の配列の総数に等しい。

これを \(\mu_{0}^{(n)}\) とおいたのが性質2である。

式 \((4)\) から続けて \(\theta\) を作用させると

$$\theta f^{(3)}=x\frac{\partial}{\partial x}(x^{-3}+2x^{-1}+2x^{1}+x^{3})$$

$$=x(-3x^{-4}-2x^{-2}+2x^{0}+3x^{2})\tag{5}$$

$$=-3x^{-3}-2x^{-1}+2x^{1}+3x^{3}\tag{6}$$

となる。

途中式 \((5)\) において、微分により「係数×次数」の計算を行っているが、係数が \(u\) 、次数が \(S\) に相当することを考えると、これは「(スコア \(S\) となる配列の個数)×(スコア)」の計算を行っていることに等しい。

これを配列の総数 \(\mu_{0}^{(n)}\) で割ると個数は頻度、すなわち確率となり、期待値計算と同じであることがわかる。

\(x=1\) を代入することはこれらの総和をとることと等しいので、要素数 \(3\) の配列におけるスコアの平均を \(\mu_{1}^{(3)}\) とおくと

$$\mu_{1}^{(3)}=\frac{(\theta f^{(3)})_{x=1}}{\mu_{0}^{(3)}}$$

$$\mu_{0}^{(3)}\mu_{1}^{(3)}=(\theta f^{(3)})_{x=1}$$

より、性質3が確認できる。

また、式 \((6)\) より \((\theta f^{(3)})_{x=1}=0\) なので、 \(\mu_{1}^{(3)}=0\) であることもわかる。

なお、演算子 \(\theta\) において、 \(x\) で微分した後に \(x\) を掛けるのは、 \(x\) の次数をもとに戻すためである。

さらに \(\theta\) を作用させると

$$\theta^2 f^{(3)}=x\frac{\partial}{\partial x}(-3x^{-3}-2x^{-1}+2x^{1}+3x^{3})$$

$$=x(9x^{-4}+2x^{-2}+2x^{0}+9x^{2})$$

$$=9x^{-3}+2x^{-1}+2x^{1}+9x^{3}$$

となる。

この時点で「係数×次数×次数」すなわち「個数× \(S^{2}\) 」の計算を行っている。

\(S\) の平均は \(0\) なので、前回同様 \(\mu_{0}^{(n)}\) で割って個数を確率にすることで、分散の計算と等価になる。

したがって、要素数 \(n\) の配列における \(S\) の分散を \(\mu_{2}^{(n)}\) とおくと

$$\mu_{2}^{(3)}=\frac{(\theta^{2} f^{(3)})_{x=1}}{\mu_{0}^{(3)}}$$

$$\mu_{0}^{(3)}\mu_{2}^{(3)}=(\theta^{2} f^{(3)})_{x=1}$$

より、性質4が確認できる。

なお、一般に \(\mu_{m}^{(n)}\) を要素数 \(n\) の配列における \(S\) の \(m\) 次モーメントとおくと、

$$\mu_{0}^{(n)}\mu_{m}^{(n)}=(\theta^{m} f^{(n)})_{x=1}$$

が成り立つ。

このあと、以上の関係式から、

$$\mathrm{Var}_{n}(S)=\mu_{2}^{(n)}=\frac{n(n-1)(2n+5)}{18}\tag{7}$$

であることが導ける。

これが本当に正しいことを確認するのは、読者への演習問題としたい。

演習問題と解答↓

Kendall 順位相関係数の確率分布を導出する―演習問題解答
問題 $$f^{(n)}\equiv(x^{-1}+x^{1})(x^{-2}+1+x^{2})\ldots(x^{-(n-1)}+x^{-(n-3)}+\ldots+x^{n-3}+x^{n-1})\tag{1}$$ とおく。 \(x\)...

以上より、スコア \(S\) の平均が \(0\) 、分散が \(\frac{n(n-1)(2n+5)}{18}\) であることが示された。
\(n\rightarrow\infty\) のとき、 \(S\) の分布は正規分布となるが、その証明はここでは省略する。

したがって

$$z\equiv\frac{S}{\sqrt{Var_{n}(S)}}$$

$$=S\sqrt{\frac{18}{n(n-1)(2n+5)}}$$

とおいたとき、この統計量 \(z\) は標準正規分布にしたがう。

ここに \(\tau\equiv\frac{2S}{n(n-1)}\) を代入すると

$$z=\frac{\tau n(n-1)}{2}\sqrt{\frac{18}{n(n-1)(2n+5)}}$$

$$=\tau\sqrt{\frac{9n(n-1)}{2(2n+5)}}$$

より、 \(\tau\) を用いて表したこの統計量 \(z\) が標準正規分布に従う。

Comments