test

ビジネスと技術やってたらロボティクスにいきついた人のブログ

推定誤差分散が最小になる推定方法とフィッシャー情報量

おおもとの疑問

未知の値に対して、ランダムな誤差が含まれるのを避けられない測定を何度か行い推定するとき

未知の値はどの程度正確に知ることができるのか?

その正確さを使って、測定が持っている情報量なるものを定義できないか?

 

 

正確な議論をするための定義と状況の簡略化

いま、未知の値\thetaを雑音v_1,\ v_2N(0,\sigma _1 ^2),\ N(0,\sigma _2 ^2)で表される互いに独立な正規分布に従う事がわかっている測定器で2回測定し以下の測定値y_1,\ y_2を得たとする。

 y_1 = \theta + v_1

 y_2 = \theta + v_2

 

このとき、y_1, y_2の線形結合 \hat{\theta } = k_1 y_1 + k_2 y_2,\ (k_1+k_2=1)\theta の推定値とすると、推定の誤差分散 (\theta - \hat{\theta })^2の期待値 E((\theta - \hat{\theta })^2 )を最小にするk_1, k_2をとったとき、その値はいくらになるか?

 

(実はこの問題は雑音の平均値がゼロで分散が有限なことさえ仮定すれば解けるが、あとでフィッシャー情報量を計算するために正規分布を仮定した)

 

計算

  E((\theta - \hat{\theta })^2 )

 E((\theta - k_1 y_1 - k_2 y_2 )^2 )

 E((\theta - (k_1 +k_2)\theta  - k_1 v_1 - k_2 v_2 )^2 )      k_1 +k_2 =1なので

 E(( k_1 v_1 + k_2 v_2 )^2 )    E(v_1)=E(v_2)=0, E(v_1^2)=\sigma _1 ^2,\ E(v_2 ^2)= \sigma _2 ^2なので

= k_1^2 \sigma _1 ^2 +  k_2^2 \sigma _2 ^2    k_2を消去して

= k_1^2 \sigma _1 ^2 +  (1-k_1)^2 \sigma _2 ^2

これが最小になるk_1, k_2を求めるには、k_1微分して0とすればいいので

 k_1 = \frac{\sigma _2 ^2 }{\sigma _1 ^2 + \sigma _2 ^2}

 k_2 = \frac{\sigma _1 ^2 }{\sigma _1 ^2 + \sigma _2 ^2}

このとき

  E((\theta - \hat{\theta })^2 )=\frac{\sigma _1 ^2 \sigma _2 ^2 }{\sigma _1 ^2 + \sigma _2 ^2}

 

これで第一の疑問「未知の値はどの程度正確に知ることができるのか?」についての答えとして

分散の最小値を  E((\theta - \hat{\theta })^2 )=\frac{\sigma _1 ^2 \sigma _2 ^2 }{\sigma _1 ^2 + \sigma _2 ^2}ととるようにできる。という知見を得ることができた。

 

情報量なる抽象的な概念をこのように、「その測定によって、どれだけ正確な推定ができるか」で定義しよう!

・・・というのがフィッシャー情報量である。

 

誤差分散に対して次のクラメールラオの不等式が成立することが知られている

E_{y|\theta }(\theta - \hat{\theta } )^2 \geq E_{y|\theta }((\partial _{\theta } \log p(y | \theta ) )^2 ) ^{-1}

yは測定値全体をまとめたベクトル

E_{y|\theta }は条件付き確率密度分布p(y|\theta)に対する期待値を取ることを意味する。

 この不等式の右辺は、今回の問題のように平均値、分散などを仮定しない一般化した形をしている。

右辺の逆数がフィッシャー情報量と呼ばれる量である。

 

今回の問題に挙げた例を使って、実際に右辺の値を計算してみる。

 \log p(y_1, y_2 | \theta ) = \log p(y_1|\theta ) p(y_2|\theta )=\log p(y_1|\theta ) + \log p(y_2|\theta )   ( y_1,\ y_2は独立)

 p(y_1|\theta ) = A(\sigma _1) \exp (- \frac{(y_1 - \theta )^2 }{2\sigma _1 ^2})       A(\sigma _1) \theta によらない量。あまり興味がない

 \log p(y_1|\theta ) = \log A(\sigma _1) - \frac{(y_1 - \theta )^2 }{2\sigma _1 ^2}

 \partial _{\theta } \log p(y_1|\theta ) = \frac{(y_1 - \theta ) }{\sigma _1 ^2}

同様の計算を y_2にも行うことができる。

また、[(y-\theta )]の奇数次の期待値はゼロなので残るのは

E((\partial _{\theta } \log p(y_1, y_2 | \theta )^2 ) = \sigma _1 ^{-2} + \sigma _2 ^{-2} = (\frac{\sigma _1 ^2 \sigma _2 ^2 }{\sigma _1 ^2 + \sigma _2 ^2})^{-1}

確かにフィッシャー情報量の逆数と推定誤差分散の最小値は一致した。

 

このような計算を一般化して行った結果がクラメールラオの不等式を考えることができる。

 

 

参考

https://www.amazon.co.jp/%E9%9D%9E%E7%B7%9A%E5%BD%A2%E3%82%AB%E3%83%AB%E3%83%9E%E3%83%B3%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF-%E7%89%87%E5%B1%B1-%E5%BE%B9/dp/4254201486