DeepMindの強化学習のGAN論文を読む
ランニング30分 英語30分 Leon
(1)またDeepMindの2足歩行の身体動作のGANモデルの論文を読む
Learning human behaviors from motion capture by adversarial imitation
https://arxiv.org/abs/1707.02201
動画
Learning human behaviours from motion capture by adversarial imitation - YouTube
これはGAIL(Generative Adversarial imitation Learing)モデルと称される。
生成器で実測データと同様な2足歩行のデータを生成し、このデータで判別器で得られた報酬の高低で、生成器のパラメータを改善するモデル。
実際の観察データは様々な状況(バランス、登り、転倒、コーナー走行)でのモーションキャプチャーを使っており、このモデルで自然な動作が早期に学習されている。
生成器での強化学習の方策πの改善はTRPO(Trasut-Region Policy)で行っている。
TRPOは、方策πを最適化する標準な方式で、方策πの修正前後が安定する範囲(Trust Region)で方策のパラメータを変更するものであり。下記の文献に詳しい。
https://arxiv.org/abs/1502.05477