スポンサーリンク

Kendall 順位相関係数の確率分布を導出する

自然科学
0
(0)

概要

この記事では、Kendall 順位相関係数を用いて計算した統計量が、標準正規分布にしたがうことの証明を行う。Kendall 順位相関係数の定義については

Kendall 順位相関係数の定義と確率分布
概要この記事では、2配列の順序の相関を表す指標である、Kendall 順位相関係数について解説する。まず、同義の Kendall の \(\tau\) (タウ)を最も簡単な形式で定義した後、2配列間の相関係数としてそれを拡...

を参照のこと。

命題

Kendall 順位相関係数 \(\tau\) を用いて

$$z\equiv\tau\sqrt{\frac{9n(n-1)}{2(2n+5)}}$$

という統計量 \(z\) を定義したとき、この \(z\) は標準正規分布 \(\mathcal{N}(0, 1)\) にしたがう。

導出

\(z\) が標準正規分布にしたがうとき、\(\tau\) 自体は平均 \(0\) 、分散 \(\frac{2(2n+5)}{9n(n-1)}\) の正規分布にしたがう。これを導出するために、まず「概要」で示した記事の定義にしたがって、スコア \(S\) の平均と分散を求める。

\(S\) の平均は正負の対称性を考えて \(0\) である。また、取り得る範囲は \(n\) に依存し

\(n\)\(S(個数)\)
\(1\)\(0(1)\)
\(2\)\(-1(1), +1(1)\)
\(3\)\(-3(1), -1(2), +1(2), +3(1)\)
\(4\)\(-6(1), -4(3), -2(5), 0(6), +2(5), +4(3), +6(1)\)
\(5\)\(-10(1), -8(4), -6(9), -4(15), -2(20), 0(22), +2(20), +4(15), +6(9), +8(4), +10(1)\)
表1

と続く。なお、\(S\) の値の数値の横に示したのは、その値をとる配列の数である。例えば \(n=3\) のとき、数字 \(1,2,3\) の並べ方は \(3!=6\) 通り存在するが、それらについて

配列\(S\)
123+3
132+1
213+1
231-1
312-1
321-3
表2

と、\(S\) の値を求めることができる。この、「配列の要素数が \(n\) 個のとき、スコアが \(S\) となる並べ方」を \(u_{n, S}\) とおくと、以下の漸化式が成立することがわかる。

$$u_{n+1,S}=u_{n,S-n}+u_{n,S-(n-2)}+\ldots+u_{n,S+(n-2)}+u_{n,S+n}\tag{1}$$

これは以下の理由による。例えば \(1\) から \(n\) までの数字でスコア \(S\) となっている配列があり、その先頭に \(n+1\) を追加すると、これはその右にある \(n\) 個のどの数字よりも小さいので、スコアが \(-n\) を加算することになる。\(n+1\) を先頭から2番目に挿入した場合のスコアの変動は \(-(n-2)\) であり、同様に3番目、4番目…に挿入した場合は \(-(n-4), -(n-6), \ldots\) となる。これを、数値 \(n+1\) を挿入してスコアを \(S\) にできる要素数 \(n\) の配列すべてについて考えることで、漸化式 \((1)\) が導出できる。

これを踏まえて、以下の多項式を考える。

$$f^{(n)}\equiv1\cdot(x^{-1}+x^{1})(x^{-2}+1+x^{-2})\cdots(x^{-(n-1)}+x^{-(n-3)}+\ldots+x^{n-3}+x^{n-1})\tag{2}$$

さらに「 \(x\) で偏微分した後、\(x\) を掛ける」という演算 \(x\frac{\partial}{\partial x}\) を \(\theta\) と定義し、式 \(y\) に \(x=a\) を代入することを \(y_{x=a}\) と書くと、 \(f^{(n)}\) は以下の性質を満たすよう設計されていることがわかる。

  1. \(x^{S}\) の係数が、要素数 \(n\) の配列でスコア \(S\) となるものの個数
  2. \(f^{(n)}_{x=1}=n!\) ( \(=\mu_{0}^{(n)}\) とおく)
  3. 要素数 \(n\) の配列における \(S\) の平均を \(\mu_{1}^{(n)}\) とおくと、\((\theta f^{(n)})_{x=1}=\mu_{0}^{(n)}\mu_{1}^{(n)}\)
  4. 要素数 \(n\) の配列における \(S\) の分散を \(\mu_{2}^{(n)}\) とおくと、\((\theta^{2}f^{(n)})_{x=1}=\mu_{0}^{(n)}\mu_{2}^{(n)}\)

\(n=3\) のときを例にこの性質を確認する。

$$f^{(3)}=(x^{-1}+x^{1})(x^{-2}+1+x^{2})$$
$$=(x^{-1}x^{-2})+(x^{-1}x^{0}+x^{1}x^{-2})+(x^{-1}x^{2}+x^{1}x^{0})+(x^{1}x^{2})\tag{3}$$
$$=x^{-3}+2x^{-1}+2x^{1}+x^{3}\tag{4}$$

より、表1と照らし合わせて性質1が成り立っていることがわかる( \(u_{3,-3}=1, u_{3,-1}=2,u_{3,-1}=2,u_{3,3}=1\) )。また、\(f^{(2)}=x^{-1}+x^{1}\) より \(u_{2,-1}=1, u_{2,1}=1\) となっていることも確認できる。ここで、 \(f^{(2)}\) が \(f^{(3)}\) になるに際して新たに付け足された \((x^{-2}+1+x^{2})=(x^{-2}+x^{0}+x^{2})\) の各次数が、「要素数 \(n\) の配列に数字 \(n+1\) を追加したとき、変化するスコアの値」であると考えると、途中式 \((3)\) の計算から、漸化式 \((1)\) と同様の更新が行われていることがわかる。

また、\(x=1\) を代入することで、この係数の総和をとる。項数から総和が \(n!\) となることは明らかであり、これは要素数 \(n\) の配列の総数に等しい。これを \(\mu_{0}^{(n)}\) とおいたのが性質2である。

式 \((4)\) から続けて \(\theta\) を作用させると

$$\theta f^{(3)}=x\frac{\partial}{\partial x}(x^{-3}+2x^{-1}+2x^{1}+x^{3})$$
$$=x(-3x^{-4}-2x^{-2}+2x^{0}+3x^{2})\tag{5}$$
$$=-3x^{-3}-2x^{-1}+2x^{1}+3x^{3}\tag{6}$$

となる。途中式 \((5)\) において、微分により「係数×次数」の計算を行っているが、係数が \(u\) 、次数が \(S\) に相当することを考えると、これは「(スコア \(S\) となる配列の個数)×(スコア)」の計算を行っていることに等しい。これを配列の総数 \(\mu_{0}^{(n)}\) で割ると個数は頻度、すなわち確率となり、期待値計算と同じであることがわかる。\(x=1\) を代入することはこれらの総和をとることと等しいので、要素数 \(3\) の配列におけるスコアの平均を \(\mu_{1}^{(3)}\) とおくと

$$\mu_{1}^{(3)}=\frac{(\theta f^{(3)})_{x=1}}{\mu_{0}^{(3)}}$$
$$\mu_{0}^{(3)}\mu_{1}^{(3)}=(\theta f^{(3)})_{x=1}$$

より、性質3が確認できる。また、式 \((6)\) より \((\theta f^{(3)})_{x=1}=0\) なので、\(\mu_{1}^{(3)}=0\) であることもわかる。なお、演算子 \(\theta\) において、\(x\) で微分した後に \(x\) を掛けるのは、\(x\) の次数をもとに戻すためである。

さらに \(\theta\) を作用させると

$$\theta^2 f^{(3)}=x\frac{\partial}{\partial x}(-3x^{-3}-2x^{-1}+2x^{1}+3x^{3})$$
$$=x(9x^{-4}+2x^{-2}+2x^{0}+9x^{2})$$
$$=9x^{-3}+2x^{-1}+2x^{1}+9x^{3}$$

となる。この時点で「係数×次数×次数」すなわち「個数× \(S^{2}\) 」の計算を行っている。\(S\) の平均は \(0\) なので、前回同様 \(\mu_{0}^{(n)}\) で割って個数を確率にすることで、分散の計算と等価になる。

したがって、要素数 \(n\) の配列における \(S\) の分散を \(\mu_{2}^{(n)}\) とおくと

$$\mu_{2}^{(3)}=\frac{(\theta^{2} f^{(3)})_{x=1}}{\mu_{0}^{(3)}}$$
$$\mu_{0}^{(3)}\mu_{2}^{(3)}=(\theta^{2} f^{(3)})_{x=1}$$

より、性質4が確認できる。

なお、一般に \(\mu_{m}^{(n)}\) を要素数 \(n\) の配列における \(S\) の \(m\) 次モーメントとおくと、

$$\mu_{0}^{(n)}\mu_{m}^{(n)}=(\theta^{m} f^{(n)})_{x=1}$$

が成り立つ。この後、以上の関係式から、

$$\mathrm{Var}_{n}(S)=\mu_{2}^{(n)}=\frac{n(n-1)(2n+5)}{18}\tag{7}$$

であることが導ける。これが本当に正しいことを確認するのは、読者への演習問題としたい。

演習問題と解答↓

以上より、スコア \(S\) の平均が \(0\) 、分散が \(\frac{n(n-1)(2n+5)}{18}\) であることが示された。\(n\rightarrow\infty\) のとき、\(S\) の分布は正規分布となるが、その証明はここでは省略する。

したがって

$$z\equiv\frac{S}{\sqrt{Var_{n}(S)}}$$
$$=S\sqrt{\frac{18}{n(n-1)(2n+5)}}$$

とおいたとき、この統計量 \(z\) は標準正規分布にしたがう。ここに \(\tau\equiv\frac{2S}{n(n-1)}\) を代入すると

$$z=\frac{\tau n(n-1)}{2}\sqrt{\frac{18}{n(n-1)(2n+5)}}$$
$$=\tau\sqrt{\frac{9n(n-1)}{2(2n+5)}}$$

より、\(\tau\) を用いて表したこの統計量 \(z\) が標準正規分布に従う。

この記事は役に立ちましたか?

星をクリックして、評価してください!

現在の平均評価 0 / 5. 評価した人数: 0

お役に立てたようで嬉しいです!

著者SNSをフォローしていただけると、更新情報が手に入ります。

記事がご期待に沿えなかったようで、申し訳ありません…。

是非、改善点を教えてください!

この記事において改善すべき点や、追加で知りたかったことは何ですか?

コメント