敵対的理論より学習環境に依存しない逆強化学習の論文を読む

このバークレイ学派の論文の寄与は次の2点である

[1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

  ① 逆強化学習(IRL)はGANと同じ理論とする論文により

  IRLをGANの識別(Discriminator)関数の最適化で解く

  ②このモデルを状況s依存に変形して、

 学習した軌跡と異なった環境でも適用できるIRLモデルにした。

 具体的にはこの手法のIRLが多少環境を変えても適用できる事が示されている。

       f:id:mabonki0725:20180809071828p:plain

 左図は障害壁の向きが逆になった場合、右図は蟻の前足が短くなった場合でも元の行動軌跡からのIRLで解いた報酬関数を使っても適用できる事が示されている。

 

 ①につては次の難しい論文があるが、本文中の付録に解説がある。  

[1611.03852] A Connection between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models

  要はエネルギーベースのIRLはGDL(Guided Cost Learning)で解くが、GANと同じ定式化ができるので、次式の識別関数D_\theta\mathcal{L}(\theta)のネットワークで解けばよいとのことである。

       \mathcal{D}_{\theta}(s,a) = \frac{\exp \{ r_{\theta}(s,a) \}} {\exp \{r_{\theta}(s,a) \} + \pi(a|s)}

         \mathcal{L}(\theta) = -\mathbb{E}_{\tau \sim D} [ \sum_{t=0}^{T} \log D_\theta (s_t,s_a) ] - \mathbb{E}_{\tau \sim \pi} [ \sum_{t=0}^{T} \log (1 - D_\theta(s_t,a_t)) ]

   最適な識別関数Dを使うと報酬関数は次式で求まる。

         \hat{r}(s,a) = \log(D_\theta(s,a)) - \log(1 - D_\theta(s,a))

   上記の証明は

   本論文のAppendex A にエネルギーベースのIRLの解法GDL(Guided Cost Learning)

   本論文のAppendex B にGDLがGANと同じ事が示されている。

 

 

 ②を達成するには、変化した環境s'に依存するモデルではなく、現状の状態sのみに依存する様に変形する必要がある。

 一般的には次のとおりであるが

     \mathcal{D}_{\theta}(s,a,s') = \frac{\exp \{ f_{\theta}(s,a,s') \}} {\exp \{f_{\theta}(s,a,s') \} + \pi(a|s)}

       f_{\theta}(s,a,s')  = r_\theta(s,a) + \gamma V(s') - V(s)

 

 状況sに依存する様にパラメータ\theta\phiを導入して識別関数\mathcal{D}_{\theta,\phi}を最適化することで算出する式に変形している。

     \mathcal{D}_{\theta,\phi}(s,a,s') = \frac{\exp \{ f_{\theta,\phi}(s,a,s') \}} {\exp \{f_{\theta,\phi}(s,a,s') \} + \pi(a|s)}

        f_{\theta,\phi}(s,a,s')  = g_\theta(s,a) + \gamma h_\phi (s') - h_\phi(s)

        g_\theta(s) = r(s) + constant

        f_\phi(s) = V(s) + constant

         f_\phi(s') = constant \cdot  f_\phi(s)

 

注記)

 逆強化学習とGANが同様に定式化される事についての詳説したものに下記の資料がある。

www.slideshare.net

 

 

 

複数エージェントの協調学習に成功している論文を読む

この論文はデモが凄いので結構よく論文が読まれている。これはバークレイ学派 Abbeel達の発表である。

[1706.02275v3] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

この4つのデモでは、複数のエージェントが協調や敵対を報酬設定によって実現されているのが示されている。f:id:mabonki0725:20180805091433p:plain

①協調対話:複数の発話者(3点)と聞き役(1点)がある。聞き役は指定された発話者の所に移動する場合、発話者は聞き役に移動方向を指示し、聞き役は呼応して移動する。

②協調狩:大きな障害物がある所で遅い動きの猟者達が早い動きの目標を協調して狩る

③協調指導:複数のエージェントが同数の目標を協調して占める

④偽装協調:複数の協調エージェントと敵対エージェントがある。協調エージェントは敵対エージェントを偽装して引き付ける役と目標を補足する役とで協調する

 

 動画はこちら

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

これらのデモを達成するために論文では以下の工夫をしている。

①各エージェントは独自に報酬が設定でき、協調や敵対行動が可能になる

 自分と他のエージェント間の関係

 自分と目標との関係

②各エージェントには次のActor-criticモデルを適用

 ・協調や敵対するため各エージェントは他のエージェントの行動a_jを見ることができる

 ・行動選択は決定的方策勾配法を採用:独自の方策関数\mu_\theta(s)を使う

 ・各エージェントの行動選択a_i=\mu_\theta(o_i)は自分の観察o_iから選択する

 上記の方法より、全てのエージェントの行動を把握できる事を前提にしており、行動選択はエージェント独自の状況から決定するので「中央監視・独自行動モデル」(centralized training with decentralized execution)として図1が示してある。

  f:id:mabonki0725:20180805110952p:plain

この図を式で示すと

 一般のactorでは

      \nabla_{\theta_i} J(\theta_i) = \mathbb{E}_{s \sim p^\pi,a_i \sim \pi_i} [\log_{\theta_i }\pi_i(a_i|o_i)  Q_i^\pi(o_i,a_i) \ ]

 協調や敵対で他のエージェントの行動を考慮して拡張する

      \nabla_{\theta_i} J(\theta_i) = \mathbb{E}_{s \sim p^\pi,a_i \sim \pi_i} [\log_{\theta_i }\pi_i(a_i|o_i)  Q_i^\pi(x,a_1 \dots a_N) \ ]

     x = (o_1\dots o_N)  o_jはエージェントjの観察

 

   これに決定勾配関数を\muを適用すると

      \nabla_{\theta_i} J(\theta_i) = \mathbb{E}_{s \sim p^\mu,a_i \sim \mu_i} [\nabla_{\theta_i }\mu_i(a_i|o_i)  \nabla_{a_i} Q_i^\mu(x,a_1 \dots a_N) \ | a_i  = \mu_i(a_i) ]

 

   criticは次の最小化でQ関数を決定

    \mathcal{L}(\theta_i) = \mathbb{E}_{x,a,r,x'}[Q_i^\mu(x,a_1 \dots a_N) - y)^2 ]

    y = r_i + \gamma Q_i^{\mu'}(x',a'_1 \dots a'_N) | a'_j = {\mu}'_j(o_j)

 

この論文が強調としている様にエージェントが全てのエージェントの行動を把握できる前提がある。これはエージェントは注意深く他のエージェント(敵対エージェントも含む)を監視して行動を把握できるモデルと解釈すべきである。

 

多数エージェント型のアルゴリズムは上記の式をactor-criticフレームに適用した内容になっている。

f:id:mabonki0725:20180805124450p:plain

 

 

 

 

 

 

 

 

 

複雑な最終状態を認識して行動する強化学習の論文を読む

論文の図1にある様な複雑な最終状態(goal)を認識してロボットがそれに到達するモデルである。著者はバークレイ学派の重鎮 Sergey Levine等である。

[1807.04742] Visual Reinforcement Learning with Imagined Goals

f:id:mabonki0725:20180803180614p:plain

実際の動作の動画は下記。下が最終状態 上がそれまでの動作を表示している。

https://docs.google.com/file/d/1VfANRmj7iMW-w4RofbqU4CSdTJSL8j3B/view

 

このバークレイ学派は2年前に画期的なロボット制御にGPS(Guided Policy Search)を提唱していて、この時は環境の認識をConvolution DNNを使っていた。

[1504.00702] End-to-End Training of Deep Visuomotor Policies

f:id:mabonki0725:20180803181342p:plain

最終状態やそれに至る経過を認識するには、かなり高次元の認識になるのでこれをConv-DNN から VAE に変更して 混合ガウス分布 で情報量を軽減してモデル化したものである。

残念ながら価値行動関数はデジタル制御のQ-Learningとなっていて実機モデルでは達成されていないと思われる。

アルゴリズムは次で記述されている

      \epsilon(w) = \frac{1}{2} [ Q_w(s,a,g) - (r + \gamma max_a Q_w(s',a',g')]^2 [1]

      r(s,g) = - || z' - z_g||  \propto \sqrt{\log e_\phi(z_g | s)}

      s VAE での状態

      g VAEでの最終状態

      a 行動

      \pi(e(s),e(g)) は 3期のTD学習としている

   e(s)はVAEのコード化

 

f:id:mabonki0725:20180803184156p:plain

 

  

 

 

夢で学習する強化学習モデルの論文を読む

この論文のタイトルは「world Model」で世界認識と訳せばよい分らないが、大げさなタイトルに適った素晴らしい内容である。

[1803.10122v4] World Models

著者はLSTMの開発者の一人でシュミットフーバー(Schmidhuber)である。この人物は汎用人工知能を目指しているだけに論文の内容はこれに迫るものと思える。

www.swissinfo.ch

この論文はLSTM+VAE+RLの次の様なモデルを考案している。

 1) Vモデル:画像をVAEで抽象化する。VAEは生成モデルzとして多峰ガウシアンを使用

 2) Mモデル:生成モデルzをLSTMでメモリhに保存する

 3) Cモデル:メモリhと生成モデルz内容と環境からの報酬で強化学習RLで行動aを決定

        但しCモデルはLSTMの負荷を軽減するため非常に簡単な線形モデルとしている。

             a_t = w_c^T [z_t,h_t] + b_c   tは時刻

 

        図中の画像はゲームDoomのモンスターが吐く火炎の動画を示している。

 

     f:id:mabonki0725:20180801200133p:plain

上記V-M-CをLSTMで繋ぐことによって、現実のゲームも学習できるが、さらに次の過程を繰返すことによって仮想現実でのゲーム学習を可能にしている。

  1)未来での状況の予測

  2)未来の状況での行動を予測

  3)さらに行動により次の状況も予測

f:id:mabonki0725:20180801201025p:plain

論文ではこの仮想現実を「夢」として捉えている。

この論文の驚くべき報告はゲームDoomの仮想現実でのゲーム学習により、次を発見したことである。

 夢でのゲームを繰返すと現実でのゲームが旨くなる

f:id:mabonki0725:20180801214928p:plain

論文では仮想現実での訓練が現実に寄与する理由を以下で分析している

    1) 現実を簡略化してゲームを学習することができる

 2)現実で有り得ない方策を試せる

         例えば、エージェントが宙に浮いたり、モンスターが壁の向こうから現れたりする

    3) 敵対的な方策も試せる

  現実と反対の方策が採りえる。

  多分VAEの生成モデルが多峰ガウシアンなので反対のイメージが生成できるためと考えられる。

 

この論文の示唆する所は次の様な、人間の創造性的な訓練の可能性を示したことである。

一般に人間の睡眠は記憶の定着といわれるが、この実験の成果はそれ以上に重要であって、人間の夜間に見る夢は、現実の世界を抽象化し、現実世界で試せないイメージや行動で創造的な方策を生成していて、目が覚めてもそれを記憶しており現実に生かせるか試していると思われる。

 

 

 

 

計画と目的を分離して協調する強化学習の論文を読む

暫く発表が続いたので論文が読めず、浦島状態になっている。慌てて論文を読み始める。

マルチエージェント関係の論文が相当優秀なものが紹介される様になり感動すら覚える。その一つとして強化学習の早期学習にカリキュラム開発と目的遂行を分離して学習する論文を読む。

[1703.05407] Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play

DQNでは「Montezuma's Revenge」が最も解きにくいとされている。これは様々な課題が順番に課せられ、到達すると報酬が得られるものである。

f:id:mabonki0725:20180730181233p:plain

この様なモデルの対策として次の様なものがある。

1) ビデオ録画からゲーム攻略の軌跡を多く集め、軌跡に合うと擬似報酬を与える方式

[1805.11592] Playing hard exploration games by watching YouTube

2) なるべく異なった状況を好む好奇心に擬似報酬を与える方式

https://pathak22.github.io/noreward-rl/resources/icml17.pdf

 

3) 画面の解像度を低くして画面の遷移が多い方に報酬を与える方法

[1606.01868] Unifying Count-Based Exploration and Intrinsic Motivation

 

この論文は多くの人が解説を書いているが、課題の順番を探査してカリキュラムを探索する担当と実際に報酬を得る担当とに分けるモデルである。

この論文の理屈は、論文の図が一番わかりやすい。

f:id:mabonki0725:20180730180758p:plain

論文には単一エージェントに2つの心があり、これをAliceとBobとしている。

1) 左図 Aliceは課題を順番に探索して様々なカリキュラム(手順)を作成する (self-play episode)

2)中図BobはAliceの手順を最後から逆に行動してゆき最初に戻る (Reverse)

3)右図Bobは逆順に様々なカリキュラムを覚えているので、最適なカリキュラムを使って報酬(旗)を得る探索をする

擬似報酬は以下としている

   R_A \leftarrow \gamma max(0,t_B - t_A)  Aliceの擬似報酬

   R_B \leftarrow  - r t_A Bobの擬似報酬

   t_A:AliceのStep数

   t_B:BobのStep数

  Aliceの擬似報酬はBobのStep数に近い方がよく、  Bobの擬似報酬はStep数が近い方がよく設定されている。両方の報酬設定でStep数が少なく AliceとBobの軌跡が似る様にしている。

 

この1)と2)のアルゴリズムは次で示してある。

f:id:mabonki0725:20180730183116p:plain

3)のアルゴリズム

f:id:mabonki0725:20180730183437p:plain

これによる効果は下図の緑線で示されている。

f:id:mabonki0725:20180730184822p:plain

データ分析ツールPADOCを発表してきました

昨日台風12号のさなか次のツールを発表してきました。

Pythonはデータ前処理には使えないというケンカを売ってきましたが、皮肉なことにPythonとの親和性が次の課題となりそうです。

 

www.slideshare.net

HassabisのAIサーベイ論文の纏め

AIバブルと言われている昨今では、本来のAIの見通しが悪くなっていると思い、AIテーマを模索するため昨年発表されたアルファ碁を作り脳科学者であるHassabis@DeepMindのAIサーベイ論文を以下に纏めてみました。

Neuroscience-Inspired Artificial Intelligence | DeepMind

www.slideshare.net