mathematics

Sponsored
機械学習・AI

有界な分布を用いたEMアルゴリズムが、なぜ失敗するのか?【一様分布】

EMアルゴリズムは任意の確率分布からなる混合分布に対して適用可能だが、有界な分布を用いた場合には失敗しやすい。この記事では、一様分布を例にその理由を示したあと、Eステップ/Mステップの前にサンプリングを実施することで失敗を回避する方法について解説する。
機械学習・AI

任意の確率分布でEMアルゴリズムを理解・実装する【正規分布以外も】

EMアルゴリズムは、混合正規分布の条件下で解説・実装される場合が多い。しかし本来、近似には任意の分布を用いることができる。この記事では、混合正規分布の場合に限らない任意の確率分布に対するEMアルゴリズムについて、理論と実践例をコードとともに提示する。
確率・統計

一様分布の最尤推定

公式 一様分布 \(U(x|a,b)\) のパラメータについて、データ \(X=\{x_1,x_2,\ldots,x_N\}\) を用いて最尤推定を行ったとき $$a=\min(X), b=\max(X)$$ となる。ここで、 \(\min...
プログラミング

仮想データセット配布【逆問題・不良設定問題】

概要 不良設定問題に対する機械学習を行うための、仮想データセットを作成した。 このデータセットでは、dataに3種類の(仮想の)血液検査値が与えられており、この値から、targetとして与えられた、体内に存在する8種類の(仮想の)細菌の比率...
Python

尤度と誤差の関係―ガウス誤差モデル下のAIC, BIC

概要 WikipediaのBIC(ベイズ情報量基準)のページを読んでいると、BICは $$\mathrm{BIC}=-2\cdot\ln(L)+k\ln(n)\tag{1}$$ と定義されるが、ガウス誤差の下では $$\mathrm{BIC...
確率・統計

01-Kendall 順位相関係数の効率的な計算法

概要 この記事では、 01-Kendall 順位相関係数 2 値 Kendall 順位相関係数 Binary Kendall 順位相関係数 などと呼ばれそうな、Kendall 順位相関係数 の特殊な場合の計算法についてまとめる。ようするに ...
確率・統計

同一の分布にしたがう確率変数の最大値の分布

動機 乱数をたくさん発生させたとき、その最大値はどんなふうに分布することになるのか気になった。 問題 確率密度関数 \(f\) にしたがう連続確率変数 \(X\) を考える。独立に \(n\) 個のサンプルを発生させ、その最大値を \(Y\...
確率・統計

(補足)サンプルサイズが大きいことの何が問題か?

概要 先日、上の記事の中で、「サンプルサイズは小さすぎても大きすぎてもいけない」という説明をした。とはいえ、サンプルサイズが小さすぎる場合に検定がうまくいかないのは直感に沿うが、大きすぎる場合の問題点は少しわかりにくいかもしれない。それを補...
確率・統計

一般の和事象の確率―その証明と極限

2つの事象のどちらか一方、または両方が起こることを和事象(AまたはB)といいます。この記事では、ベン図を用いて和事象の確率を計算する方法について解説し、それぞれの事象の確率の和との関係について、一般の場合と極限を考えます。
確率・統計

単調増大列・単調減少列の定義と性質【確率の連続性を導くために】

事象の列を構成する要素が互いに包含関係にあるとき、その方向によって単調増大列または単調減少列と呼ばれます。この記事では、単調増大列と単調減少列の定義と性質を解説し、これらが収束することに基づいて確率の連続性という性質を証明します。確率の連続性は、無限回の試行についての確率を考えるための重要な関係式を導きます。