Abbeelの計画問題の強化学習の論文を読む

ランニング30分 英語できず

Abbeelの計画問題の強化学習の論文を読む

「Learning Generalized Reactive Plicies using Deep Neural Network」

https://arxiv.org/abs/1708.07280v1

ロボット学の第一人者USCバークレイのPieter Abbeelが参加している倉庫ゲームを扱った強化学習の論文である。下記はこの論文の成果動画である。

youtu.be

learn2plan

DeepMindも下記で同じように倉庫問題にチャレンジしていている。こちらは長期戦略の深層RL(model-based)と画面による深層RL(model-free)の合せ技で計画問題を解いている。

mabonki0725.hatenablog.com

こちらは経験的な知識(Heuristic)を逆強化学習として計画問題として解いている。この様にDeepMindと違うのは、DeepMindは計算機が自分自身で考える所謂シンギュラリティを目指しており、一方Abbeel達はロボットの実用化を目指していて汎用的な解法には拘っていないためと思われる。

・手法

 知らなかったがA*(Astar)の様に計画問題を専門に解くシステムがある様で、このシステムを使ったログデータを熟達者のデータとして用い逆強化学習で強化学習の方策問題を解いている。計画問題のシステムとしてASP2000で優勝したFast-Forward(FF)モデルの結果をログデータとして採用している。

http://www.cs.toronto.edu/~sheila/2542/w06/readings/ffplan01.pdf

ここでは逆強化学習をGRP(Generlized reactive plolicy)と称しCNN型の深層学習で解いている。

このネットワークは以下の特徴を持つ

・GPRでは現在とゴールの2画面を指定すると、ログデータより多数の経路をboostrap法でサンプリングしている。

 深層ネットワークはこのサンプリング経路を基に行動予測の訓練をしていると思われる。

・途中で枝分かれして、行動の予測とゴールまでの必要な手数の予測をしている

・枝分かれした層には直接観察データのデータも混ぜてCNN処理をしている。

f:id:mabonki0725:20170830114442p:plain

・結果

 荷物が1つの場合の達成率は97%  2個の場合は87%と報告されている。

 しかし、計画手順が長いと成功率は線形に下落している。

f:id:mabonki0725:20170830120624p:plain