test

ビジネスと技術やってたらロボティクスにいきついた人のブログ

ベイズ統計からみた頻度主義的検定手法

主旨

ベイズ統計と頻度主義でやってる検定ってどういう関係があるの?

という疑問について考えてみる。

 

議論

ベイズ統計では以下のように分布を取り扱う事が多い。

 

サンプリングされたデータを用いて次にとれるデータがどの程度の確率でどの値になるか予測したい。

この問題はデータがどのような確率分布に従うか推定する問題であり

予めパラメトリックな確率モデルが想定できるなら、 確率モデルのパラメータを求める問題になる。

例えばデータが正規分布に従うと思われる場合、「次にとれるデータがどの程度の確率でどの値になるかの予測」は「今とれているデータを生成している正規分布の平均と分散はいくらと推定されるか」という問題になる。

話を具体的にするため、以下ではデータは正規分布に従うとする。 

 

これを数式で表すと、2つの確率変数x,\ \thetaがあって、

x \in \mathbb{R} ^nはサンプリングされたデータ、 \theta \in \mathbb{R} ^2は確率モデルを特徴づけるパラメータ、正規分布においては分散と平均)

次の事後分布を考える

 p(\theta|x)

 

言葉で書くと、今取れている xというデータがある前提のもと、分散と平均が\theta となる確率 p(\theta|x)を考える。

 

ベイズの定理より

 p(\theta|x) \propto p(x|\theta)p(\theta)

 

 p(x|\theta)正規分布に従っている

 p(\theta)は事前分布と呼ばれるもので、 p(\theta|x)と同じ関数型になるように取ると便利である。(これを共役事前分布という)

 

例えば、\theta のうち平均は既知で分散を推定したい場合、事前分布として逆ガンマ分布をとる。

そうすると上記の計算により事後分布が計算できて、未知なるデータに対するの推定が可能になる。

 

頻度主義的な検定の手法は、上記の方法で求めた p(\theta|x)を使って、別のデータセットで求めた平均・分散\hat{\theta }がどの程度の確率密度 p(\hat{\theta }|x)をもつかということを問題にしている。

例えば、別のデータセットが異なる分散をもつという仮説を検定(これをするときは、 p(\theta|x)を異なるデータセットから得られた分散以上の領域で積分して、有意水準を超えれば仮説は採択される。