Efronの曲率による最尤値推定の論文を読む
ランニングできず 英語できず
(1) Efronの曲率による最尤値推定の論文を読む
「Curvature and Inference for Maximum Likelihood Estimations」
http://statweb.stanford.edu/~ckirby/brad/papers/2016CurvatureInferenceMLEs.pdf
T研のMゼミで解説された この論文がPRMLの記述と異なり全く付いて行けなかったのでPRML記述に直して読んでみました。
この論文は指数分布族の最尤推定できる範囲を幾何的に説明したもので情報幾何学の一部となります。
著者のEfronの曲率は次の資料で分る様に情報幾何学の甘利俊一先生がこの分野を志した契機になったものです。
https://www.jstage.jst.go.jp/article/bjsiam/11/3/11_KJ00005768851/_pdf
情報幾何学は難解ですが、甘利先生の影響はニューロや脳神経モデルで絶大なので読んでみる気になりましたが、やはり途中で挫折しました。
情報幾何学を解説した甘利先生の講義のビデオがありました。
情報幾何講義 (甘利俊一、午前) 難易度★★ - YouTube
今回はこの論文の指数分布族の記述についてPRMLの記述で理解するだけとなります。
指数分布族はPRMLでは次式で定義されています。
①式
ここで
はデータ
はパラメータ
はの任意の関数
は確率の和が1になる事を保証するものです。
①式を積分すると1なので
②式
分配関数と置くと
ここで 即ち と置くと
そして と置くと論文の(2.1)式が出てきます。
(2.1) 式
指数分布族では平均と分散が を微分と2回微分で計算できる便利な定理があります。
以下これを示します。
②式をで微分すると
③式
左辺の第1項は
左辺の第2項は
③式は次となります。
なので
⑤式
なので 論文の(2.2)式となります。
(2.2)式
同様にして分散も2回微分で求められて
(2.2)式
ここまでの結論として分配関数の対数を微分すると平均、2回微分すると分散が表現できることが、指数分布族の特徴です。
ここまでがPRMLを使った指数分布族の説明で、以降論文に沿って説明します。
指数分布族の尤度は(2.2)を使って次式となります。
パラメータを求めるため尤度を微分します。
尤度が正しく極大値を取るかを見るため2回微分します。
ここではフィッシャー情報行列で
この値が零または負なれば極小値か鞍点なので正しい尤度解ではありません。
以降この式の特性を調べる記述になります。
このが様々な値を採る場合の幾何学的な状態を下図に示します。
なので ととは直交しています。
※ この論文で以降で尤度の2回微分の状態を調べる記述になり、この結果(2.19)式以降の記述で尤度が計算できる境界と範囲の説明になりますが、難解なため後日挑戦します。