分散型・敵対的生成モデルを使った逆強化学習の論文を読む

ランニング30分 英語できず

(1)分散型・敵対的生成モデルを使った逆強化学習の論文を読む

「OptionGAN:Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reiforement Larning」https://arxiv.org/abs/1709.06683

 この論文は逆強化学習でGANのロジックを応用して強化学習の精緻化を実現したものです。モデル名はOptionGanです。

 一般に逆強化学習では、熟練者の行動から隠れた報酬を推定する事が一般的ですが、熟練者のデータは断片的に観察されるのが普通です。

 そこでGANを使って熟練者に似た擬似的なデータを増幅して学習精度を高め様とするアイデアです。念が入ったことに、さらに多様に増幅するため分散型の学習を導入しています。

f:id:mabonki0725:20171010235251p:plain

上図の識別器と生成器を分割学習(option法)て局所解を回避して精度向上を実現しています。

f:id:mabonki0725:20171010235320p:plain