本能的に学習するロボット実験の論文を読む

ランニング30分 英語:できず

(1) 本能的に学習するロボット実験の論文を読む

「Instrinstically Motivated Goal Exploaration Processes with Automatic Curriculum Learning」

https://arxiv.org/abs/1708.02190

今までの強化学習はゴール(目的)が明解であったが、この論文は繰返し過程で、様々なゴールを本能的に見つけだし、その観察や経路過程を記憶させ、徐々にあらゆるゴールを適応させて知識を拡大させるもので衝撃的な内容である。このモデルを少し長いがIMGEP(Intrinsically Motivated Goal exploration Process)本能的な動機による探査過程と云う。

この論文はフランス人によるもので米英に無い独特の本能的報酬やメタ強化学習と云う新たな概念が導入されている。

下図はその実験であり、下記はその3分の動画で、試行錯誤的なロボットの動作が5時間で徐々に知識を獲得していく様子が示されている。

Intrinsically Motivated Multi-Task Reinforcement Learning - YouTube

f:id:mabonki0725:20170824143326p:plain

このプログラムとラズパイで動作するロボットの設計図(3Dprint)は下記で公開されている。

https://github.com/ymollard/APEX

メタ強化学習を目的としているので、繰返し中に様々なゴールを見つけ学習するが、下図の赤線や紫線の様に全く学習できないものもある。

f:id:mabonki0725:20170824144126p:plain

本論文のアルゴリズムは凡そ下記である。

・環境の初期状態をcで決定する

・ゴールpをパラメータ化して様々に変動できる様にする

・知識\epsilonを空で初期化する

・知識\epsilonでのメタ強化学習\Pi_\epsilon(\theta|p,c)を初期設定する

・ゴールの選択方策\gamma(g|c)を初期化する

・探査ループに入る

 ・ゴールg\sim \gamma(g|c)を本能的報酬から選択する

 ・最適方策\thetaを前回までの経路\tauと報酬関数R_gから推定する

 ・方策\thetaで実行して経路情報\tauを収集して追加する

 ・経路\tauより報酬rを得る

 ・本能的報酬r_iを報酬rよりヒューリステックな方法で得る

 ・メタ強化学習\Pi_\epsilonを最適方策\thetaで修正する

 ・ゴール\gamma(g|c)の選択方策を本能的方策r_iで修正する

 ・獲得知識\epsilonを本能的報酬r_iや方策\thetaで修正する

・新獲得知識でメタ強化学習\Piを更新する

・メタ強化学習\Piを得る 

本論文では本能的報酬r_iはIRと記述してあるので逆強化学習で求めると思うが、ヒューリステックを採用していて、実際には音とか色の変化が適切としている。