分散型・敵対的生成モデルを使った逆強化学習の論文を読む
ランニング30分 英語できず
(1)分散型・敵対的生成モデルを使った逆強化学習の論文を読む
「OptionGAN:Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reiforement Larning」https://arxiv.org/abs/1709.06683
この論文は逆強化学習でGANのロジックを応用して強化学習の精緻化を実現したものです。モデル名はOptionGanです。
一般に逆強化学習では、熟練者の行動から隠れた報酬を推定する事が一般的ですが、熟練者のデータは断片的に観察されるのが普通です。
そこでGANを使って熟練者に似た擬似的なデータを増幅して学習精度を高め様とするアイデアです。念が入ったことに、さらに多様に増幅するため分散型の学習を導入しています。
上図の識別器と生成器を分割学習(option法)て局所解を回避して精度向上を実現しています。