mabonki0725の日記

本能的に学習するロボット実験の論文を読む

AI論文ロボテックス

ランニング30分　英語：できず

(1) 本能的に学習するロボット実験の論文を読む

「Instrinstically Motivated Goal Exploaration Processes with Automatic Curriculum Learning」

https://arxiv.org/abs/1708.02190

今までの強化学習はゴール（目的）が明解であったが、この論文は繰返し過程で、様々なゴールを本能的に見つけだし、その観察や経路過程を記憶させ、徐々にあらゆるゴールを適応させて知識を拡大させるもので衝撃的な内容である。このモデルを少し長いがIMGEP（Intrinsically Motivated Goal exploration Process)本能的な動機による探査過程と云う。

この論文はフランス人によるもので米英に無い独特の本能的報酬やメタ強化学習と云う新たな概念が導入されている。

下図はその実験であり、下記はその3分の動画で、試行錯誤的なロボットの動作が５時間で徐々に知識を獲得していく様子が示されている。

Intrinsically Motivated Multi-Task Reinforcement Learning - YouTube

f:id:mabonki0725:20170824143326p:plain

このプログラムとラズパイで動作するロボットの設計図（３Dprint)は下記で公開されている。

https://github.com/ymollard/APEX

メタ強化学習を目的としているので、繰返し中に様々なゴールを見つけ学習するが、下図の赤線や紫線の様に全く学習できないものもある。

f:id:mabonki0725:20170824144126p:plain

本論文のアルゴリズムは凡そ下記である。

・環境の初期状態を $c$ で決定する

・ゴール $p$ をパラメータ化して様々に変動できる様にする

・知識 $\epsilon$ を空で初期化する

・知識 $\epsilon$ でのメタ強化学習 $\Pi_\epsilon(\theta|p,c)$ を初期設定する

・ゴールの選択方策 $\gamma(g|c)$ を初期化する

・探査ループに入る

　・ゴール $g\sim \gamma(g|c)$ を本能的報酬から選択する

　・最適方策 $\theta$ を前回までの経路 $\tau$ と報酬関数 $R_g$ から推定する

　・方策 $\theta$ で実行して経路情報 $\tau$ を収集して追加する

　・経路 $\tau$ より報酬 $r$ を得る

　・本能的報酬 $r_i$ を報酬 $r$ よりヒューリステックな方法で得る

　・メタ強化学習 $\Pi_\epsilon$ を最適方策 $\theta$ で修正する

　・ゴール $\gamma(g|c)$ の選択方策を本能的方策 $r_i$ で修正する

　・獲得知識 $\epsilon$ を本能的報酬 $r_i$ や方策 $\theta$ で修正する

・新獲得知識でメタ強化学習 $\Pi$ を更新する

・メタ強化学習 $\Pi$ を得る　

本論文では本能的報酬 $r_i$ はIRと記述してあるので逆強化学習で求めると思うが、ヒューリステックを採用していて、実際には音とか色の変化が適切としている。