Efronの曲率による最尤値推定の論文を読む

ランニングできず 英語できず

(1) Efronの曲率による最尤値推定の論文を読む

 「Curvature and Inference for Maximum Likelihood Estimations」

http://statweb.stanford.edu/~ckirby/brad/papers/2016CurvatureInferenceMLEs.pdf

 T研のMゼミで解説された この論文がPRMLの記述と異なり全く付いて行けなかったのでPRML記述に直して読んでみました。   

 この論文は指数分布族の最尤推定できる範囲を幾何的に説明したもので情報幾何学の一部となります。

 著者のEfronの曲率は次の資料で分る様に情報幾何学の甘利俊一先生がこの分野を志した契機になったものです。

https://www.jstage.jst.go.jp/article/bjsiam/11/3/11_KJ00005768851/_pdf

 情報幾何学は難解ですが、甘利先生の影響はニューロや脳神経モデルで絶大なので読んでみる気になりましたが、やはり途中で挫折しました。

 情報幾何学を解説した甘利先生の講義のビデオがありました。   

    情報幾何講義 (甘利俊一、午前) 難易度★★ - YouTube

www.youtube.com

  今回はこの論文の指数分布族の記述についてPRMLの記述で理解するだけとなります。

 指数分布族はPRMLでは次式で定義されています。

  p(x|\eta) = h(x) g(\eta) \exp\{ \eta^T u(x) \}    ①式

        ここで

   xはデータ

            \etaはパラメータ

            u(x)xの任意の関数

     g(\eta)は確率の和が1になる事を保証するものです。

   ①式を積分すると1なので

            \int p(x|\eta) dx = g(\eta) \int h(x) \exp \{\eta^T u(x) \} dx = 1 ②式

            分配関数z(\eta) = \frac{1}{g(\eta)} と置くと

            \frac{\int h(x) \exp \{\eta^T u(x) \} dx} {z(\eta)} = 1

 ここで \psi(\eta) = \log g(\eta) 即ち \exp \psi(\eta) = g(\eta)と置くと

           p(x|\eta) = h(x) \exp \{\eta^Tu(x) - \psi(\eta) \}

    そして u(x) \to y  h(x) \to g_0(y) と置くと論文の(2.1)式が出てきます。

          g_\eta(y) = e^{\eta^Ty - \psi(\eta)} g_0(y) (2.1) 式 

 

   指数分布族では平均と分散が \psi(\eta)微分と2回微分で計算できる便利な定理があります。   

    以下これを示します。

 ②式を\eta微分すると

       \nabla g(\eta) \int h(x) \exp \{\eta^T u(x) \} dx + g(\eta) \int h(x) \exp \{ \eta^T u(x) \} u(x) dx  = 0   ③式

   左辺の第1項は\int h(x) \exp \{\eta^T u(x) \} dx = \frac{1}{g(\eta)}

   左辺の第2項は  \ g(\eta) \int h(x) \exp \{ \eta^T u(x) \} u(x) dx = \mathbb{E}(u(x))

 ③式は次となります。

   \nabla g(\eta) \frac{1}{g(\eta)} + \mathbb{E}(u(x)) = 1

          \frac{1}{g(\eta)} g(\eta) = \nabla \log g(\eta)なので

   -\nabla \log g(\eta) = \mathbb{E}(u(x))     ⑤式

    \psi(\eta) = \log g(\eta)なので 論文の(2.2)式となります。

   - \nabla \psi(\eta) =  \mathbb{E}(u(x))  

   \mu_\eta = (\partial\psi/\partial \eta_i) = E_\eta \{y\}  (2.2)式

 同様にして分散も2回微分で求められて

   V_\eta = (\partial\psi/\partial \eta_i \partial \eta_j) = cov_\eta \{y\}   (2.2)式

   ここまでの結論として分配関数z(\eta)の対数\psi(\eta)微分すると平均、2回微分すると分散が表現できることが、指数分布族の特徴です。

 

 ここまでがPRMLを使った指数分布族の説明で、以降論文に沿って説明します。

 指数分布族の尤度l(y)は(2.2)を使って次式となります。

     l(y) = \log [ g_\eta(y) ] = \eta^T - \psi(\eta)

    パラメータ\etaを求めるため尤度を微分します。

  \dot{l}(y) = \dot{\eta}^T y - \nabla \psi(\eta) = \dot{\eta}^T (y - \mu) = 0

   尤度が正しく極大値を取るかを見るため2回微分します。

  \ddot{l}(y) = \mathcal{I} - \ddot{\eta}^T (y - \mu)

     ここで\mathcal{I}はフィッシャー情報行列で

   \mathcal{I} = \dot{\eta}^T V \dot{\eta}

 この値が零または負なれば極小値か鞍点なので正しい尤度解ではありません。

 以降この式の特性を調べる記述になります。

 

  この\etaが様々な値を採る場合の幾何学的な状態を下図に示します。

  \mathcal{F_\mu} = \{ \mu = \mathbb{E}_\eta(y), \eta \in A\}

        \perp{\mathcal{L}}(\dot{\eta}) = \dot{\eta}^T (y - \mu) = 0なので \dot{\eta}(y-\mu)とは直交しています。

 

f:id:mabonki0725:20171004223155p:plain

 この論文で以降で尤度の2回微分\ddot{l}(y) = \mathcal{I} - \ddot{\eta}^T (y - \mu)の状態を調べる記述になり、この結果statical / curvature(2.19)式以降の記述で尤度が計算できる境界\mathcal{B}と範囲\mathcal{R}の説明になりますが、難解なため後日挑戦します。

 \mathcal{critical \  boundary} 

       \mathcal{B} = \{ y = \mu + c + r, \dot{\eta}r = \ddot{\eta}r = 0\}

   \mathcal{region \ of \ stability} 

      \mathcal{R} = \{ y = \mu + b v + r, b \lt 1/\gamma\}