複雑な最終状態を認識して行動する強化学習の論文を読む

論文の図1にある様な複雑な最終状態(goal)を認識してロボットがそれに到達するモデルである。著者はバークレイ学派の重鎮 Sergey Levine等である。

[1807.04742] Visual Reinforcement Learning with Imagined Goals

f:id:mabonki0725:20180803180614p:plain

実際の動作の動画は下記。下が最終状態 上がそれまでの動作を表示している。

https://docs.google.com/file/d/1VfANRmj7iMW-w4RofbqU4CSdTJSL8j3B/view

 

このバークレイ学派は2年前に画期的なロボット制御にGPS(Guided Policy Search)を提唱していて、この時は環境の認識をConvolution DNNを使っていた。

[1504.00702] End-to-End Training of Deep Visuomotor Policies

f:id:mabonki0725:20180803181342p:plain

最終状態やそれに至る経過を認識するには、かなり高次元の認識になるのでこれをConv-DNN から VAE に変更して 混合ガウス分布 で情報量を軽減してモデル化したものである。

残念ながら価値行動関数はデジタル制御のQ-Learningとなっていて実機モデルでは達成されていないと思われる。

アルゴリズムは次で記述されている

      \epsilon(w) = \frac{1}{2} [ Q_w(s,a,g) - (r + \gamma max_a Q_w(s',a',g')]^2 [1]

      r(s,g) = - || z' - z_g||  \propto \sqrt{\log e_\phi(z_g | s)}

      s VAE での状態

      g VAEでの最終状態

      a 行動

      \pi(e(s),e(g)) は 3期のTD学習としている

   e(s)はVAEのコード化

 

f:id:mabonki0725:20180803184156p:plain

 

  

 

 

夢で学習する強化学習モデルの論文を読む

この論文のタイトルは「world Model」で世界認識と訳せばよい分らないが、大げさなタイトルに適った素晴らしい内容である。

[1803.10122v4] World Models

著者は日本では有名なDavid Haであるが、著者の一人はLSTMの開発者の一人でシュミットフーバー等(Schmidhuber)である。この人物は汎用人工知能を目指しているだけに論文の内容はこれに迫るものと思える。

www.swissinfo.ch

この論文はLSTM+VAE+RLの次の様なモデルを考案している。

 1) Vモデル:画像をVAEで抽象化する。VAEは生成モデルzとして多峰ガウシアンを使用

 2) Mモデル:生成モデルzをLSTMでメモリhに保存する

 3) Cモデル:メモリhと生成モデルz内容と環境からの報酬で強化学習RLで行動aを決定

        但しCモデルはLSTMの負荷を軽減するため非常に簡単な線形モデルとしている。

             a_t = w_c^T [z_t,h_t] + b_c   tは時刻

 

        図中の画像はゲームDoomのモンスターが吐く火炎の動画を示している。

 

     f:id:mabonki0725:20180801200133p:plain

上記V-M-CをLSTMで繋ぐことによって、現実のゲームも学習できるが、さらに次の過程を繰返すことによって仮想現実でのゲーム学習を可能にしている。

  1)未来での状況の予測

  2)未来の状況での行動を予測

  3)さらに行動により次の状況も予測

f:id:mabonki0725:20180801201025p:plain

論文ではこの仮想現実を「夢」として捉えている。

この論文の驚くべき報告はゲームDoomの仮想現実でのゲーム学習により、次を発見したことである。

 夢でのゲームを繰返すと現実でのゲームが旨くなる

f:id:mabonki0725:20180801214928p:plain

論文では仮想現実での訓練が現実に寄与する理由を以下で分析している

    1) 現実を簡略化してゲームを学習することができる

 2)現実で有り得ない方策を試せる

         例えば、エージェントが宙に浮いたり、モンスターが壁の向こうから現れたりする

    3) 敵対的な方策も試せる

  現実と反対の方策が採りえる。

  多分VAEの生成モデルが多峰ガウシアンなので反対のイメージが生成できるためと考えられる。

 

この論文の示唆する所は次の様な、人間の創造性的な訓練の可能性を示したことである。

一般に人間の睡眠は記憶の定着といわれるが、この実験の成果はそれ以上に重要であって、人間の夜間に見る夢は、現実の世界を抽象化し、現実世界で試せないイメージや行動で創造的な方策を生成していて、目が覚めてもそれを記憶しており現実に生かせるか試していると思われる。

 

 

 

 

計画と目的を分離して協調する強化学習の論文を読む

暫く発表が続いたので論文が読めず、浦島状態になっている。慌てて論文を読み始める。

マルチエージェント関係の論文が相当優秀なものが紹介される様になり感動すら覚える。その一つとして強化学習の早期学習にカリキュラム開発と目的遂行を分離して学習する論文を読む。

[1703.05407] Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play

DQNでは「Montezuma's Revenge」が最も解きにくいとされている。これは様々な課題が順番に課せられ、到達すると報酬が得られるものである。

f:id:mabonki0725:20180730181233p:plain

この様なモデルの対策として次の様なものがある。

1) ビデオ録画からゲーム攻略の軌跡を多く集め、軌跡に合うと擬似報酬を与える方式

[1805.11592] Playing hard exploration games by watching YouTube

2) なるべく異なった状況を好む好奇心に擬似報酬を与える方式

https://pathak22.github.io/noreward-rl/resources/icml17.pdf

 

3) 画面の解像度を低くして画面の遷移が多い方に報酬を与える方法

[1606.01868] Unifying Count-Based Exploration and Intrinsic Motivation

 

この論文は多くの人が解説を書いているが、課題の順番を探査してカリキュラムを探索する担当と実際に報酬を得る担当とに分けるモデルである。

この論文の理屈は、論文の図が一番わかりやすい。

f:id:mabonki0725:20180730180758p:plain

論文には単一エージェントに2つの心があり、これをAliceとBobとしている。

1) 左図 Aliceは課題を順番に探索して様々なカリキュラム(手順)を作成する (self-play episode)

2)中図BobはAliceの手順を最後から逆に行動してゆき最初に戻る (Reverse)

3)右図Bobは逆順に様々なカリキュラムを覚えているので、最適なカリキュラムを使って報酬(旗)を得る探索をする

擬似報酬は以下としている

   R_A \leftarrow \gamma max(0,t_B - t_A)  Aliceの擬似報酬

   R_B \leftarrow  - r t_A Bobの擬似報酬

   t_A:AliceのStep数

   t_B:BobのStep数

  Aliceの擬似報酬はBobのStep数に近い方がよく、  Bobの擬似報酬はStep数が近い方がよく設定されている。両方の報酬設定でStep数が少なく AliceとBobの軌跡が似る様にしている。

 

この1)と2)のアルゴリズムは次で示してある。

f:id:mabonki0725:20180730183116p:plain

3)のアルゴリズム

f:id:mabonki0725:20180730183437p:plain

これによる効果は下図の緑線で示されている。

f:id:mabonki0725:20180730184822p:plain

データ分析ツールPADOCの発表

間違って2018/07/29日の記事を削除してしまったので再掲です。

データ前処理研究会でデータ分析ツールPADOCを発表してきました。

データ分析での前処理の議論が殆どないので、業務分析を兼ねたデータ前処理が全工程の7割を占めることが認識されていない様だ。このことはデータ取得が簡単な自然言語や画像処理以外ではデータ分析を行っている人は本当は少ないのではないかと思われる。実務で相談受ける場合は、問題を分析できるデータの所在やその量や精度の検討が最も大事である。逆説的に言うと添付資料に示す様に機械学習やその分析ツールの選択肢は限られており、この狭い選択肢に合う様に限られたデータを編集し分析ツールで如何に最大の性能を引き出すかがデータ分析の醍醐味である。

次の資料は実務に適用できる様に試作したデータ編集と分析モデルを統合的に提供する分析ツールPADOCの説明である。

www.slideshare.net

HassabisのAIサーベイ論文の纏め

AIバブルと言われている昨今では、本来のAIの見通しが悪くなっていると思い、AIテーマを模索するため昨年発表されたアルファ碁を作り脳科学者であるHassabis@DeepMindのAIサーベイ論文を以下に纏めてみました。

Neuroscience-Inspired Artificial Intelligence | DeepMind

www.slideshare.net

風景の要素の関係図から画像を生成する論文を読む

もう15年ぐらい聞いているFM市川の琴音さんのブログに新居の写真が張ってあり、謎の物体が座椅子に乗っているので、画像から文章生成モデルで認識させてみた。

ameblo.jp

左写真は流石に新居とあって文章生成モデルではバスルームと認識され、座椅子は便器として文章生成されている。そこで座椅子の近辺での右写真では、ベットや鞄上の猫と表現されている。座椅子が認識されないのは、米国製の学習データには日本独自の座椅子が無いからと推察される。この様に画像からの文章生成モデルは、適切な学習データと対象を絞ればそれなりに高い精度が期待できそうです。

f:id:mabonki0725:20180420164753p:plain

表題の論文は逆に風景描写の文章から画像を生成したいのだが、下の左図にある様にかなり精度が低いので、文章の代わりに風景にある要素の関係図から画像生成すればリアルな画像を得られたとの報告である。

f:id:mabonki0725:20180419211733p:plain

[1804.01622] Image Generation from Scene Graphs

このモデルは下記のパイプラインで生成している。

①関係図の各要素と関係をベクトル化する。

②ベクトル表現を空間上の関係にする(object feature)

③空間上の関係から写真位置を予測する(Layout prediction)

④予測位置を条件とするGANの generaterで画像を生成する

⑤生成した画像をGANのDiscrimaterで本物か識別する

⑥GANの繰返しでリアルな画像にする

f:id:mabonki0725:20180420170501p:plain

④~⑥は普通のCondition GANで生成できる。

①~③については全く反対の画像から関係図を生成するモデルが存在するので学習データは豊富にあると考えられる。

github.com

DeepMindの「心の機械理論」Machine Theory to Mindの論文を読む

この論文は1978年に提唱された「心の理論」Theory to Mindでの人間が特有に持つ自己と他者の相違を理解する認識を深層モデルToMnet(Theory of Mind Network)で作ろうとしたものである。

Machine Theory of Mind | DeepMind

「心の理論」は次に詳しいが、幼児は他者と自分との区別が付かず、このテストで人間の発達段階がわかることになっている。

心の理論 - Wikipedia

このモデルは、強化学習を済ました多種のAgentが存在し、各エージェントの意図を学習するものなので、Meta-Learningとも云える。

具体的には、下図の様にToMnetは或る環境下でのAgentの行動履歴(a)を観察して、その好みのオブジェクト(c)を認識し、全く異なる環境(b)でのAgentの動きを予測(d)することができる。

f:id:mabonki0725:20180401210552p:plain

逆強化学習でも同じ環境しか行動予測ができないので、ToMnetの様なモデルは他に存在せず、驚くべき性能を持っている。

このモデルの目的は「心の論理」試験に合格するシニアなレベルの構築であり、実験結果は詳細に記述してあるが、モデル自体の記述は下図のToMnet(Theory of Mind Network)と称する深層学習モデルでの説明だけである。

f:id:mabonki0725:20180401210031p:plain

この図の手続きとしては

①ある環境下で2つの「埋め込み」でagentの内部を表現する

 past trajectories:或る環境下での行動履歴→char net→e_{char}

 resent trajectory:直近の行動履歴+e_{char}→mental net→e_{mental}

②新しい環境では、この2つの「埋め込み」とprediction netでagentの動きを予測する。

ここでagentの動きとして3つの特性を予測する。

 \hat{\pi}:次の行動

 \hat{c}:好みのオブジェクト

 \hat{SR}:予測経路の確率

 

ToMnetの「心の理論」の達成は下図の様な実験で示している。

ここでは誤信念課題としてサリーとアン課題を扱っている。

即ちagent(サリー)が誤信念を持っているかToMnet(アン)が判断できるか示した実験である。サリーがゴール(星印)に達した時、恣意的にゴールを動かす(a)。ゴールの移動が少ない場合にはサリーは間違いに気付くが、遠いとサリーは間違いに気付かないとアンが認識できれば正解である。(b)の方策変更量の計測ではToMnet(アン)は移動が近いと方策を変更すると予測しており、遠いと方策を変更しないと予測している。この実験でToMnetは他者の誤信念を理解するレベルに達しているとしている。

f:id:mabonki0725:20180401213325p:plain