本能的に学習するロボット実験の論文を読む
ランニング30分 英語:できず
(1) 本能的に学習するロボット実験の論文を読む
「Instrinstically Motivated Goal Exploaration Processes with Automatic Curriculum Learning」
https://arxiv.org/abs/1708.02190
今までの強化学習はゴール(目的)が明解であったが、この論文は繰返し過程で、様々なゴールを本能的に見つけだし、その観察や経路過程を記憶させ、徐々にあらゆるゴールを適応させて知識を拡大させるもので衝撃的な内容である。このモデルを少し長いがIMGEP(Intrinsically Motivated Goal exploration Process)本能的な動機による探査過程と云う。
この論文はフランス人によるもので米英に無い独特の本能的報酬やメタ強化学習と云う新たな概念が導入されている。
下図はその実験であり、下記はその3分の動画で、試行錯誤的なロボットの動作が5時間で徐々に知識を獲得していく様子が示されている。
Intrinsically Motivated Multi-Task Reinforcement Learning - YouTube
このプログラムとラズパイで動作するロボットの設計図(3Dprint)は下記で公開されている。
https://github.com/ymollard/APEX
メタ強化学習を目的としているので、繰返し中に様々なゴールを見つけ学習するが、下図の赤線や紫線の様に全く学習できないものもある。
本論文のアルゴリズムは凡そ下記である。
・環境の初期状態をで決定する
・ゴールをパラメータ化して様々に変動できる様にする
・知識を空で初期化する
・知識でのメタ強化学習を初期設定する
・ゴールの選択方策を初期化する
・探査ループに入る
・ゴールを本能的報酬から選択する
・最適方策を前回までの経路と報酬関数から推定する
・方策で実行して経路情報を収集して追加する
・経路より報酬を得る
・本能的報酬を報酬よりヒューリステックな方法で得る
・メタ強化学習を最適方策で修正する
・ゴールの選択方策を本能的方策で修正する
・獲得知識を本能的報酬や方策で修正する
・新獲得知識でメタ強化学習を更新する
・メタ強化学習を得る
本論文では本能的報酬はIRと記述してあるので逆強化学習で求めると思うが、ヒューリステックを採用していて、実際には音とか色の変化が適切としている。