分散型DQNの論文を読む
ランニング30分 英語できず
(1) 分散型DQNの論文を読む
「A Distributional Perspective on Reinforcement Learning」
https://arxiv.org/abs/1707.06887
この論文はDeepMindのDQNの派生モデルを統合したRainbowの中核を成すもので、DQNに初めて行動価値関数の分布を取り込んだモデルです。
ロボット学のAbbeel達は方策分布の最適化TRPOを提唱していますが、行動価値関数と方策との相違だけで殆ど似たモデルとなっています。やはり細かい制御をするには分布モデルが必要な様です。
動機としては、簡単なPongゲームでも報酬が複雑な分布をしており、この報酬分布を旨く取り込んで強化学習の精度を向上させようとするものです。
(1.1) 手法
分布の行動価値関数は以下ので作成します。
ここでDQNは次の損失関数を零にする様にを学習しますので
下図は細分化変数を用いてに置き換わったDQNといえます。
ここで
は分割したベクトルです
は方策での行動価値関数です
は割引関数と報酬です
は分布の整形作用素です(後述)
まずを報酬でに分割してます。
ここでは固定のパラメータです。
報酬毎に細分化した行動価値関数分布を算出します。
ここで
はまでの範囲を示します
ZについてのDQNなのでの損失関数は前の方策と現在のとの差としています。
(1.2) 結果
通常のDQNより早期に精度が向上していおり、分割数も多い方が精度が高いことを示しています。
DeepMindのDQN統合版のRainBowの論文を読む
ランニング30分 英語できず
(1) DeepMindのDQN統合版のRainBowの論文を読む
「Rainbow:Combining Imporvements in Deep Reinforcement Learning」https://arxiv.org/abs/1710.02298
2013年に発表されたDeepMind社のDQNの派生版を統合したRainbowの高パフォーマンスの論文です。
DQNは2年後にアルファ碁のモデルの中核部分をなすモデルで如何に革新的なものであるか実績が示しています。
DQNはDeepLearningを使ってEnd-to-Endでモデルを精緻化することに成功しました。
・DeepLearning(CNN)による特徴量の自動抽出
・自動抽出した特徴量を変数とする行動価値関数の精緻化
特徴量による価値関数の精緻化はSuttonのニューロモデルで既に実現されていましたが、特徴量の抽出は試行錯誤でした。
整理のためDQNの論文よりQ-learningの式を掲げます。
https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
次式は繰返し毎に推定された前の価値行動関数と現在の価値行動関数の差を零にする様に学習しています。
但し、
損失関数はなので微分式は以下となります
ここで
は損失関数
は繰返し数
がを微分して精緻化する行動価値関数
は報酬と割引率
しかしDQNには不得意なゲームがあり、その克服のため多くの改良版が主にDeepMindによって達成されてきました。
(1.1) 手法
以下の6モデルを統合したのがRainbowとなりますが、
5)の分散型強化学習(Deistributional RL)がベースとなっています。
1) Double Q-Learning
過学習を避けるため、でQ関数で推定し2重化しています。
2) Prioritize replay
差の拡大を避けるためサンプリングの間隔を比例させています。
3) Dueling netwwork
DeepLearningの構成を強化学習用に変更 (意味不詳)
4) Multi-step Learning
倉庫問題や迷路問題を解くため、N期先の行動価値関数を推定しています。
但し、
5) Deistributional RL
これ以外は全て行動価値関数の学習(Q_learing)でしたが、
ここは唯一方策の学習になります。
このアイデアはライバルAbbeel達のTRPO(Trust Region Policy)に近いものです。
ここで報酬を区間でに分割して、
報酬毎に行動価値関数を求めて方策分布としています。
の損失関数は前の方策と現在のとの差としています。
6) Noisy Net
DQNはMontezuma’s Revengeの様な変化の多い空間で移動する様なゲームでは同じ場面を繰返して最も不得意にしていました。
そこで場面に叙々に少なくなる様なノイズをいれ大局的に場面の特徴量を掴む工夫を導入しています。
(1.1) 結果
6個のモデルを統合したRainbowはゲームを問わず高得点を達成することを示しました。
Abbeelの対等な敵対的ロボットの論文を読む
ランニング30分 英語できず
(1) Abbeelの対等な敵対的ロボットの論文を読む
「Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments」https://arxiv.org/abs/1710.03641
対等な敵対的モデルはOpen-AIの手作りのカリキュラムを利用するモデルhttps://arxiv.org/abs/1710.03748が先日投稿されましたが、この論文は正攻法で対等な敵対モデルに取り組んだものです。モデル名はRobosumoです。
強化学習のモデルはDeepMind(Google)対UC Barkeley(OpenAI)の両巨頭に絞られてきた感があります。DeepMindはQ-Learnig BarkeleyはTRPOをベースにしており、どちらが「強いAI」に至るか固唾を飲んで見守っている感じがします。
(1.1) 手法
この論文の敵対的なモデルはタスクという概念を使い2階層モデルでできています。タスクは敵対的な相手に対する戦略の様なものです。
・1階層目 (メタ学習)前のタスクの方策の改善
・2階層目 (強化学習)動作の方策の改善
最適化問題は次で定式化しています。
上式は2階層の期待値で出来ていることがわかります。
第1階層目
第2階層目
ここで
はタスクの分布
は動作での報酬
は経路
は損失関数
上式の最適化問題の動作をタスク間の動作に置き換えます。
(1.2) 結果
試合の回数に対する足の位置での報酬の低減です。提案モデルはMLP+meta-update LSTM+meta-update が該当します。提案モデルでは報酬の低減が緩やかになっています。
安定的な動作を保持するTRPOの論文を読む
ランニングできず 英語:Toiec 30分
(1) 安定的な動作を保持するTRPOの論文を読む
「Trust Region Policy Optimization」https://arxiv.org/abs/1502.05477
この論文はロボットの強化学習で革新的な貢献をしたモデルです。UC Berkeleyのロボットチームの Shulmanが2015年にICMLで発表しました。
ロボットの制御で必ずコストが低くなる(報酬が高くなる)信頼範囲(Trust Region)で方策を改善していくアイデアです。
当然このTrust Region内で維持していくには、細かい行動する制限が加わることになりますが、これによって複雑な機械がスムーズに動作できることを実現しました。
(1.1) 手法
ここでは報酬の代わりにコストで考えます。
一般化利益関数(Generalized Advantage Estimation)は行動によって受ける利益(ここではコスト削減)を示します。
ここで
は状況
は状況の価値
は状況で行動を採った後の価値
そこで、異なる方策を採った場合の改善度は次のとなります。
但し、
この式よりなら必ずコスト削減になって改善することができます。
それではコスト削減ができる範囲で最大のを探っていけば、安定した制御ができる事になります。
この用件をTRPOでは次の制約付最適問題で更新規則を実現しています。
ここでは信頼境界への制限を示していますが。模擬にて適切な値が決定されます。
一般化報酬による高次元の強化学習の論文を読む
ランニングできず 英語できず
(1) 一般化報酬による高次元の強化学習の論文を読む
「High - Dimensional Continuous Control using Generated Advantage Estimation」
https://arxiv.org/abs/1506.02438
ゲームの強化学習ではQ-learningが一般的ですが、人間型のヒユーマロイド型ロボットでは複雑で高次元の制御が必要なため、この強化学習では方策が適正拘束条件下の最適化で行うことが多いです。
このモデルとしてはUC BerkelyのAbbeel率いるロボット研究グループのShulmanが編み出したTRPO(Trust Region Policy Optimization)が多く使われ実績を残しています。
この論文は一般化報酬(GAE:Generated Advantage Estimation)を使ったTRPOモデルのアルゴリズムについて述べています。しかしこのGAE自体はSuttonのTD法で既にモデル化されているもので新しいものではありません。
Suttonの偉大な面は数多くありますが、強化学習のBellman方程式が将来への無限の漸化式で本来は解けないものを、非常に簡単な式で表現して繰返し学習によって精緻化できることを示した事が最大の功績です。これが深層学習と合体して今のAlpha碁になっています。
方策は将来の報酬の累計の期待値の最大化で最適化されます。
但し、
ここで はGAEにあたります。
このARGはSuttonの有名なTD(λ)によって次式となります。
ここで
は割引係数とλ係数です
は価値関数の増分
ARGは価値関数の増分の累計なので、これは動作経路(観察データ)から得られます。
これを使って最適なを求めるアルゴリズムが以下となります。
複数人が競争する環境での強化学習の論文を読む
ランニングできず 英語できず
(1) 複数人が競争する環境での強化学習の論文を読む
「Emergent Complexity via Multi-Agent Competition」https://arxiv.org/abs/1710.03748
複数の学習者が競争する環境は設定し易い環境ですが、強化学習にとっては最も複雑な環境となります。この論文では競争者が巧手であれば学習者が最も効果的に学習できる場としています。
下記はOpenAIの3Dで実装できた競争の強化学習です。
https://sites.google.com/view/multi-agent-competition
このモデルの特徴は初期時には設計された動作をする様にカリキュラムを導入していて、除々に勝負に関わる学習に移行できる様にしています。
(1.1) 手法
1) 学習モデル
競争モデルのはずですが、学習モデルは一般の方策のパラメータを最適化するPPO(Proximal Policy Optimization)モデルとなっています。
PPOは次の最適化問題
ここで は一般評価利益(GAE)です
この最適化問題は次の深層学習で解いています(詳細不明)
MLP:価値に関する方策と価値関数
LSTM:時間に関する方策
2) カリキュラムの導入
初期の動作訓練のためカリキュラムを導入しています。これは時間が経過するとに消滅する人工的な報酬で実現しています。
即ち、初期はカリキュラムに沿った動きをしますが、時間の経過と共に本来の勝負の報酬で学習する様になっています。
時間の経過する報酬は次のもので、焼き鈍し係数が零になると本来の勝負の報酬のみなります。
詳細はAppendix Aにある様に課題毎に設定します。
ここで
は時間の経過で消滅する焼き鈍し係数
は勝負が尽いた場合の報酬
は状況で下記を対象としています。
・ゴールまでの距離
・x方向の速度
・制御のコスト
・衝撃コスト
・不倒の報酬
(1.2) 結果
最初はカリキュラムに沿って動くので、カリキュラムでの学習度で差がでる場合があります。
(a)の人間型の相撲では最初は同じレベルでしたが、差が除々に拡大しています。しかし(b)の蟻型の相撲ではカリキュラム時の差から反対に叙々に縮まっています。
サーカーでは2パターンの様子があり、このモデルは安定していない事がわかります。
難易度が高いゴールを自動的に見つける強化学習
ランニング30分 英語できず
(1) 難易度が高いゴールを自動的に見つける強化学習
「Automatic Goal Generation for Reinforcement Learning Agents」 https://arxiv.org/abs/1705.06366
この論文には米国のロボット学の権威 Abbeel が参加しています。このモデルはGANを使うことでより難易度が高いゴールを学習します。 モデル名(Goal GAN)
(1.1) 手法
難易度が異なる複数のゴールがある場合、GANの構成によってその難易度を識別してより困難なゴールを探索します。
識別器では探索されたゴールについて以下のことをします。
・他の達成された方策でこのゴールに達成できるか識別
・達成できない場合は強化学習して達成しようとします
・達成された場合、生成器に難易度が高いゴールを探索させます
・達成できない場合、生成器に難易度を下げたゴールを探索させます。
このサイクルの循環は簡単な課題から難しい課題に進むカリキュラムを生成していることになります
(1.2) 実験
蟻型ロボットがU字路で反対側に移動する実験をこのモデルで行っています。 この場合、ゴールはガウス分布で生成しています。
この試行を繰り返すと叙々に反対側に移動できていることがわかります。
この実験では次の報酬を与えているだけで、より負荷がかかる遠い距離の移動を実現しています。
・壁を越えるのは低い報酬
・通路歩行は高い報酬