分散型DQNの論文を読む
ランニング30分 英語できず
(1) 分散型DQNの論文を読む
「A Distributional Perspective on Reinforcement Learning」
https://arxiv.org/abs/1707.06887
この論文はDeepMindのDQNの派生モデルを統合したRainbowの中核を成すもので、DQNに初めて行動価値関数の分布を取り込んだモデルです。
ロボット学のAbbeel達は方策分布の最適化TRPOを提唱していますが、行動価値関数と方策との相違だけで殆ど似たモデルとなっています。やはり細かい制御をするには分布モデルが必要な様です。
動機としては、簡単なPongゲームでも報酬が複雑な分布をしており、この報酬分布を旨く取り込んで強化学習の精度を向上させようとするものです。
(1.1) 手法
分布の行動価値関数は以下ので作成します。
ここでDQNは次の損失関数を零にする様にを学習しますので
下図は細分化変数を用いてに置き換わったDQNといえます。
ここで
は分割したベクトルです
は方策での行動価値関数です
は割引関数と報酬です
は分布の整形作用素です(後述)
まずを報酬でに分割してます。
ここでは固定のパラメータです。
報酬毎に細分化した行動価値関数分布を算出します。
ここで
はまでの範囲を示します
ZについてのDQNなのでの損失関数は前の方策と現在のとの差としています。
(1.2) 結果
通常のDQNより早期に精度が向上していおり、分割数も多い方が精度が高いことを示しています。