深層ベイズモデルによる長期予測での強化学習の論文を読む

深層ベイズ(深層生成)モデルは複雑な事象の変化が背後に潜在変数の変動によるものと仮定し、深層ネットワークで最適な潜在変数の変動を解くものである。この論文は潜在変数の変動をデコードして事象を再現し、これを長期予測として強化学習に適用したものである。

[1903.01599] Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future

深層ベイズのVAEは静止画を対象とするが、この論文の課題はAgentが自立的に行動して状況変化する動的場面の予測して強化学習を最適化するものである。

動的なLSTMとVAEを使った強化学習ではDavid HaのWorld Modelがあるが、

夢で学習する強化学習モデルの論文を読む - mabonki0725の日記

このモデルは正則化項やコスト関数を入れ長期の予測を考えたものである。 

 

この論文のモデルでは潜在変数z_tを使った2つのモデルで構成されている。左図のLSTMと潜在変数を使った行動a_tと観察o_tの生成モデル。右図は逆伝播b_t変数を使ったd潜在変数z_tの推定モデルである。

f:id:mabonki0725:20200210142405p:plain


 動的な時系列はゲームの熟練者による軌跡から次式のLSTMで学習される。

    h_t =f(o_t,h_{t-1},z_t)

動的な行動と観察の予測生成モデルは次式のDecoderで逐次的に算出される。

f:id:mabonki0725:20200210143622p:plain

上記のdecoderとpriorは条件付確率でありVAEと同様に正規分布を仮定している。

潜在変数z_tを安定的にするため、次式のLSTMの逆伝播パラメータb_tを使った正則化法を入れている。

  b=g(ot,b_{t+1})

潜在変数z_t正則化項をいれた次式のELBO(Evidence Lower Band)を最大化することによって算出される。

f:id:mabonki0725:20200210151157p:plain

 さらに未読だが次式のZ-forcing手法(文献参照)による外部コスト関数を導入して、収束しやすくしている。

f:id:mabonki0725:20200210151741p:plain

[1711.05411] Z-Forcing: Training Stochastic Recurrent Networks

 


・実験結果1

下記は3つのゲームの試行毎の報酬である。提案手法が最も改善が見られる。論文には図示がないが、CarRacingではこのモデルが道路のコーナを予測再現していることが述べられている。

f:id:mabonki0725:20200210144738p:plain

f:id:mabonki0725:20200210145009p:plain

 

・実験結果2

部屋の探索ゲーム(BabyAI)でのサブゴールからゴール検出結果

ゲームの熟練者による1000回の軌跡を学習した後、このモデルが長期予測によってサブゴールが認識できることを示している。

三角がAgentで灰色がAgentの認識領域、青が左右の部屋のドアで右部屋の薄い青がゴールである。

下図の推移からサブゴールである青いドアを認識してゴールに至っていることが分かる。

また最下の折れ線は推移毎のゴールに至るコスト値であり、サブゴール探索には高いコストを費やしており通りすぎると急激に低減していることが分かる。

f:id:mabonki0725:20200210145235p:plain

 

・感想

 VAEに代表される潜在変数の空間で一旦抽象化してモデル化する手法は人間の様々な具象を抽象化する能力に似ているとされている。これを使ったものとしてDavid Haの世界モデルやDeepMindの2Dから3Dを推定するGQNがある。この流れはVAEをかなり複雑な動的な事象にも適用しようとするもので、実装が極端に難しくなっている気がする。理論も実装も相当実力が要る時期になってきた。