難易度が高いゴールを自動的に見つける強化学習

ランニング30分 英語できず

(1) 難易度が高いゴールを自動的に見つける強化学習

「Automatic Goal Generation for Reinforcement Learning Agents」 https://arxiv.org/abs/1705.06366

 この論文には米国のロボット学の権威 Abbeel が参加しています。このモデルはGANを使うことでより難易度が高いゴールを学習します。 モデル名(Goal GAN)

(1.1) 手法

 難易度が異なる複数のゴールがある場合、GANの構成によってその難易度を識別してより困難なゴールを探索します。

 識別器では探索されたゴールについて以下のことをします。

  ・他の達成された方策でこのゴールに達成できるか識別

  ・達成できない場合は強化学習して達成しようとします

  ・達成された場合、生成器に難易度が高いゴールを探索させます

  ・達成できない場合、生成器に難易度を下げたゴールを探索させます。

 このサイクルの循環は簡単な課題から難しい課題に進むカリキュラムを生成していることになります

f:id:mabonki0725:20171012071453p:plain


 

  (1.2) 実験

  蟻型ロボットがU字路で反対側に移動する実験をこのモデルで行っています。    この場合、ゴールはガウス分布で生成しています。

    f:id:mabonki0725:20171011233933p:plain

 この試行を繰り返すと叙々に反対側に移動できていることがわかります。

 この実験では次の報酬を与えているだけで、より負荷がかかる遠い距離の移動を実現しています。

  ・壁を越えるのは低い報酬

  ・通路歩行は高い報酬

 

f:id:mabonki0725:20171011234258p:plain