DeepMindの強化学習のGAN論文を読む

ランニング30分　英語30分 Leon

(1)またDeepMindの２足歩行の身体動作のGANモデルの論文を読む

Learning human behaviors from motion capture by adversarial imitation

動画

これはGAIL(Generative Adversarial imitation Learing)モデルと称される。

生成器で実測データと同様な２足歩行のデータを生成し、このデータで判別器で得られた報酬の高低で、生成器のパラメータを改善するモデル。

実際の観察データは様々な状況(バランス、登り、転倒、コーナー走行)でのモーションキャプチャーを使っており、このモデルで自然な動作が早期に学習されている。

生成器での強化学習の方策πの改善はTRPO(Trasut-Region Policy)で行っている。

TRPOは、方策πを最適化する標準な方式で、方策πの修正前後が安定する範囲(Trust Region)で方策のパラメータを変更するものであり。下記の文献に詳しい。

f:id:mabonki0725:20170716000100p:plain

f:id:mabonki0725:20170715111509p:plain