概要
この記事では、Kendall 順位相関係数を用いて計算した統計量が、標準正規分布にしたがうことの証明を行う。
Kendall 順位相関係数の定義については

を参照のこと。
命題
Kendall 順位相関係数 \(\tau\) を用いて
$$z\equiv\tau\sqrt{\frac{9n(n-1)}{2(2n+5)}}$$
という統計量 \(z\) を定義したとき、この \(z\) は標準正規分布 \(\mathcal{N}(0, 1)\) にしたがう。
導出
\(z\) が標準正規分布にしたがうとき、 \(\tau\) 自体は平均 \(0\) 、分散 \(\frac{2(2n+5)}{9n(n-1)}\) の正規分布にしたがう。
これを導出するために、まず「概要」で示した記事の定義にしたがって、スコア \(S\) の平均と分散を求める。
\(S\) の平均は正負の対称性を考えて \(0\) である。
また、取り得る範囲は \(n\) に依存し
\(n\) | \(S(個数)\) |
---|---|
\(1\) | \(0(1)\) |
\(2\) | \(-1(1), +1(1)\) |
\(3\) | \(-3(1), -1(2), +1(2), +3(1)\) |
\(4\) | \(-6(1), -4(3), -2(5), 0(6), +2(5), +4(3), +6(1)\) |
\(5\) | \(-10(1), -8(4), -6(9), -4(15), -2(20), 0(22), +2(20), +4(15), +6(9), +8(4), +10(1)\) |
と続く。
なお、 \(S\) の値の数値の横に示したのは、その値をとる配列の数である。
例えば \(n=3\) のとき、数字 \(1,2,3\) の並べ方は \(3!=6\) 通り存在するが、それらについて
配列 | \(S\) |
---|---|
123 | +3 |
132 | +1 |
213 | +1 |
231 | -1 |
312 | -1 |
321 | -3 |
と、 \(S\) の値を求めることができる。
この、「配列の要素数が \(n\) 個のとき、スコアが \(S\) となる並べ方」を \(u_{n, S}\) とおくと、以下の漸化式が成立することがわかる。
$$u_{n+1,S}=u_{n,S-n}+u_{n,S-(n-2)}+\ldots+u_{n,S+(n-2)}+u_{n,S+n}\tag{1}$$
これは以下の理由による。
例えば \(1\) から \(n\) までの数字でスコア \(S\) となっている配列があり、その先頭に \(n+1\) を追加すると、これはその右にある \(n\) 個のどの数字よりも小さいので、スコアが \(-n\) を加算することになる。
\(n+1\) を先頭から2番目に挿入した場合のスコアの変動は \(-(n-2)\) であり、同様に3番目、4番目…に挿入した場合は \(-(n-4), -(n-6), \ldots\) となる。
これを、数値 \(n+1\) を挿入してスコアを \(S\) にできる要素数 \(n\) の配列すべてについて考えることで、漸化式 \((1)\) が導出できる。
これを踏まえて、以下の多項式を考える。
$$f^{(n)}\equiv1\cdot(x^{-1}+x^{1})(x^{-2}+1+x^{-2})\cdots(x^{-(n-1)}+x^{-(n-3)}+\ldots+x^{n-3}+x^{n-1})\tag{2}$$
さらに「 \(x\) で偏微分した後、 \(x\) を掛ける」という演算 \(x\frac{\partial}{\partial x}\) を \(\theta\) と定義し、式 \(y\) に \(x=a\) を代入することを \(y_{x=a}\) と書くと、 \(f^{(n)}\) は以下の性質を満たすよう設計されていることがわかる。
- \(x^{S}\) の係数が、要素数 \(n\) の配列でスコア \(S\) となるものの個数
- \(f^{(n)}_{x=1}=n!\) ( \(=\mu_{0}^{(n)}\) とおく)
- 要素数 \(n\) の配列における \(S\) の平均を \(\mu_{1}^{(n)}\) とおくと、 \((\theta f^{(n)})_{x=1}=\mu_{0}^{(n)}\mu_{1}^{(n)}\)
- 要素数 \(n\) の配列における \(S\) の分散を \(\mu_{2}^{(n)}\) とおくと、 \((\theta^{2}f^{(n)})_{x=1}=\mu_{0}^{(n)}\mu_{2}^{(n)}\)
\(n=3\) のときを例にこの性質を確認する。
$$f^{(3)}=(x^{-1}+x^{1})(x^{-2}+1+x^{2})$$
$$=(x^{-1}x^{-2})+(x^{-1}x^{0}+x^{1}x^{-2})+(x^{-1}x^{2}+x^{1}x^{0})+(x^{1}x^{2})\tag{3}$$
$$=x^{-3}+2x^{-1}+2x^{1}+x^{3}\tag{4}$$
より、表1と照らし合わせて性質1が成り立っていることがわかる( \(u_{3,-3}=1, u_{3,-1}=2,u_{3,-1}=2,u_{3,3}=1\) )。
また、 \(f^{(2)}=x^{-1}+x^{1}\) より \(u{2,-1}=1, u{2,1}=1\) となっていることも確認できる。
ここで、 \(f^{(2)}\) が \(f^{(3)}\) になるに際して新たに付け足された \((x^{-2}+1+x^{2})=(x^{-2}+x^{0}+x^{2})\) の各次数が、「要素数 \(n\) の配列に数字 \(n+1\) を追加したとき、変化するスコアの値」であると考えると、途中式 \((3)\) の計算から、漸化式 \((1)\) と同様の更新が行われていることがわかる。
また、 \(x=1\) を代入することで、この係数の総和をとる。
項数から総和が \(n!\) となることは明らかであり、これは要素数 \(n\) の配列の総数に等しい。
これを \(\mu_{0}^{(n)}\) とおいたのが性質2である。
式 \((4)\) から続けて \(\theta\) を作用させると
$$\theta f^{(3)}=x\frac{\partial}{\partial x}(x^{-3}+2x^{-1}+2x^{1}+x^{3})$$
$$=x(-3x^{-4}-2x^{-2}+2x^{0}+3x^{2})\tag{5}$$
$$=-3x^{-3}-2x^{-1}+2x^{1}+3x^{3}\tag{6}$$
となる。
途中式 \((5)\) において、微分により「係数×次数」の計算を行っているが、係数が \(u\) 、次数が \(S\) に相当することを考えると、これは「(スコア \(S\) となる配列の個数)×(スコア)」の計算を行っていることに等しい。
これを配列の総数 \(\mu_{0}^{(n)}\) で割ると個数は頻度、すなわち確率となり、期待値計算と同じであることがわかる。
\(x=1\) を代入することはこれらの総和をとることと等しいので、要素数 \(3\) の配列におけるスコアの平均を \(\mu_{1}^{(3)}\) とおくと
$$\mu_{1}^{(3)}=\frac{(\theta f^{(3)})_{x=1}}{\mu_{0}^{(3)}}$$
$$\mu_{0}^{(3)}\mu_{1}^{(3)}=(\theta f^{(3)})_{x=1}$$
より、性質3が確認できる。
また、式 \((6)\) より \((\theta f^{(3)})_{x=1}=0\) なので、 \(\mu_{1}^{(3)}=0\) であることもわかる。
なお、演算子 \(\theta\) において、 \(x\) で微分した後に \(x\) を掛けるのは、 \(x\) の次数をもとに戻すためである。
さらに \(\theta\) を作用させると
$$\theta^2 f^{(3)}=x\frac{\partial}{\partial x}(-3x^{-3}-2x^{-1}+2x^{1}+3x^{3})$$
$$=x(9x^{-4}+2x^{-2}+2x^{0}+9x^{2})$$
$$=9x^{-3}+2x^{-1}+2x^{1}+9x^{3}$$
となる。
この時点で「係数×次数×次数」すなわち「個数× \(S^{2}\) 」の計算を行っている。
\(S\) の平均は \(0\) なので、前回同様 \(\mu_{0}^{(n)}\) で割って個数を確率にすることで、分散の計算と等価になる。
したがって、要素数 \(n\) の配列における \(S\) の分散を \(\mu_{2}^{(n)}\) とおくと
$$\mu_{2}^{(3)}=\frac{(\theta^{2} f^{(3)})_{x=1}}{\mu_{0}^{(3)}}$$
$$\mu_{0}^{(3)}\mu_{2}^{(3)}=(\theta^{2} f^{(3)})_{x=1}$$
より、性質4が確認できる。
なお、一般に \(\mu_{m}^{(n)}\) を要素数 \(n\) の配列における \(S\) の \(m\) 次モーメントとおくと、
$$\mu_{0}^{(n)}\mu_{m}^{(n)}=(\theta^{m} f^{(n)})_{x=1}$$
が成り立つ。
このあと、以上の関係式から、
$$\mathrm{Var}_{n}(S)=\mu_{2}^{(n)}=\frac{n(n-1)(2n+5)}{18}\tag{7}$$
であることが導ける。
これが本当に正しいことを確認するのは、読者への演習問題としたい。
演習問題と解答↓

以上より、スコア \(S\) の平均が \(0\) 、分散が \(\frac{n(n-1)(2n+5)}{18}\) であることが示された。
\(n\rightarrow\infty\) のとき、 \(S\) の分布は正規分布となるが、その証明はここでは省略する。
したがって
$$z\equiv\frac{S}{\sqrt{Var_{n}(S)}}$$
$$=S\sqrt{\frac{18}{n(n-1)(2n+5)}}$$
とおいたとき、この統計量 \(z\) は標準正規分布にしたがう。
ここに \(\tau\equiv\frac{2S}{n(n-1)}\) を代入すると
$$z=\frac{\tau n(n-1)}{2}\sqrt{\frac{18}{n(n-1)(2n+5)}}$$
$$=\tau\sqrt{\frac{9n(n-1)}{2(2n+5)}}$$
より、 \(\tau\) を用いて表したこの統計量 \(z\) が標準正規分布に従う。
コメント