ベイズ統計からみた頻度主義的検定手法
主旨
ベイズ統計と頻度主義でやってる検定ってどういう関係があるの?
という疑問について考えてみる。
議論
ベイズ統計では以下のように分布を取り扱う事が多い。
サンプリングされたデータを用いて次にとれるデータがどの程度の確率でどの値になるか予測したい。
この問題はデータがどのような確率分布に従うか推定する問題であり
予めパラメトリックな確率モデルが想定できるなら、 確率モデルのパラメータを求める問題になる。
例えばデータが正規分布に従うと思われる場合、「次にとれるデータがどの程度の確率でどの値になるかの予測」は「今とれているデータを生成している正規分布の平均と分散はいくらと推定されるか」という問題になる。
話を具体的にするため、以下ではデータは正規分布に従うとする。
これを数式で表すと、2つの確率変数があって、
(はサンプリングされたデータ、は確率モデルを特徴づけるパラメータ、正規分布においては分散と平均)
次の事後分布を考える
言葉で書くと、今取れているというデータがある前提のもと、分散と平均がとなる確率を考える。
ベイズの定理より
は正規分布に従っている
は事前分布と呼ばれるもので、と同じ関数型になるように取ると便利である。(これを共役事前分布という)
例えば、のうち平均は既知で分散を推定したい場合、事前分布として逆ガンマ分布をとる。
そうすると上記の計算により事後分布が計算できて、未知なるデータに対するの推定が可能になる。
頻度主義的な検定の手法は、上記の方法で求めたを使って、別のデータセットで求めた平均・分散がどの程度の確率密度をもつかということを問題にしている。
例えば、別のデータセットが異なる分散をもつという仮説を検定(これをするときは、を異なるデータセットから得られた分散以上の領域で積分して、有意水準を超えれば仮説は採択される。