DeepMindのDQN統合版のRainBowの論文を読む
ランニング30分 英語できず
(1) DeepMindのDQN統合版のRainBowの論文を読む
「Rainbow:Combining Imporvements in Deep Reinforcement Learning」https://arxiv.org/abs/1710.02298
2013年に発表されたDeepMind社のDQNの派生版を統合したRainbowの高パフォーマンスの論文です。
DQNは2年後にアルファ碁のモデルの中核部分をなすモデルで如何に革新的なものであるか実績が示しています。
DQNはDeepLearningを使ってEnd-to-Endでモデルを精緻化することに成功しました。
・DeepLearning(CNN)による特徴量の自動抽出
・自動抽出した特徴量を変数とする行動価値関数の精緻化
特徴量による価値関数の精緻化はSuttonのニューロモデルで既に実現されていましたが、特徴量の抽出は試行錯誤でした。
整理のためDQNの論文よりQ-learningの式を掲げます。
https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
次式は繰返し毎に推定された前の価値行動関数と現在の価値行動関数の差を零にする様に学習しています。
但し、
損失関数はなので微分式は以下となります
ここで
は損失関数
は繰返し数
がを微分して精緻化する行動価値関数
は報酬と割引率
しかしDQNには不得意なゲームがあり、その克服のため多くの改良版が主にDeepMindによって達成されてきました。
(1.1) 手法
以下の6モデルを統合したのがRainbowとなりますが、
5)の分散型強化学習(Deistributional RL)がベースとなっています。
1) Double Q-Learning
過学習を避けるため、でQ関数で推定し2重化しています。
2) Prioritize replay
差の拡大を避けるためサンプリングの間隔を比例させています。
3) Dueling netwwork
DeepLearningの構成を強化学習用に変更 (意味不詳)
4) Multi-step Learning
倉庫問題や迷路問題を解くため、N期先の行動価値関数を推定しています。
但し、
5) Deistributional RL
これ以外は全て行動価値関数の学習(Q_learing)でしたが、
ここは唯一方策の学習になります。
このアイデアはライバルAbbeel達のTRPO(Trust Region Policy)に近いものです。
ここで報酬を区間でに分割して、
報酬毎に行動価値関数を求めて方策分布としています。
の損失関数は前の方策と現在のとの差としています。
6) Noisy Net
DQNはMontezuma’s Revengeの様な変化の多い空間で移動する様なゲームでは同じ場面を繰返して最も不得意にしていました。
そこで場面に叙々に少なくなる様なノイズをいれ大局的に場面の特徴量を掴む工夫を導入しています。
(1.1) 結果
6個のモデルを統合したRainbowはゲームを問わず高得点を達成することを示しました。