強化学習

最難問ゲーム「Montezuma逆襲」でぶちぎりの得点を出したUberの論文を読む

下図の様にDeepMindのDQN[1]でAtariゲームで最難問と云われる「Montezuma逆襲」でぶちぎりの得点を弾き出したUberの論文を読んでみる。(Uberはネットでのタクシー手配提供会社) この論文は下図の様に隔絶した得点を出したことが2018年末報告されており、その…

画像から実体の推移を予測して学習する論文を読んでみる

プラトンのイデア論では「本当にこの世に実在するのはイデアであって、我々が肉体的に感覚している対象や世界とはあくまでイデアの《似像》にすぎない」[1]としている。例えば3D迷路の場合、迷路内の自己位置が実体で、壁に囲まれた通路の視野が似像(画像)と…

砂のトラックを走行する実自動車での強化学習の論文を読む

下図の様な砂のトラックを走行する自動運転ではアクセルやハンドルの伝達誤差また砂利面との滑りや摩擦があり、予想し得ない事象が頻発すると想定する必要がある。下記の論文は実際の自動車での強化学習をMPPI(Model Predictiv Path Integral)と云う手法で実…

メタ学習による実世界での変異や誤差に対応した学習の論文を読む

ゲームの世界と違って実世界では次の様な実際の環境の変化に柔軟に対応して制御する必要がある。 ・接触摩擦 視覚ノイズ モータ誤差 地面の凹凸・勾配 空気抵抗 加速時間 この様な課題に対して、自動運転の場合は移動に誤差が生じ自己位置が不明になるので、…

言語解析で使うAttention型の深層学習がメタ学習を示す論文を読む

この論文は汎用翻訳モデルBertで使われるAttentionを使ったRNN型構造の深層学習が問題の構造に依らずメタ学習ができ、高次元のパターン認識や強化学習でも驚異的な性能を示したとするICRL2018報告である。 [1707.03141] A Simple Neural Attentive Meta-Lear…

封建的階層型の強化学習の論文を読んでみる

上位レベルはoption(サブゴールへの方策)を使った戦略、下位レベルはサブゴールまでを最適に行動する。この様に上位下達の封建的な分業関係を使った強化学習の論文(以下FuNs)を読んでみる。 [1703.01161] FeUdal Networks for Hierarchical Reinforcement L…

相互情報量を使ったOptionを認識する論文を読んでみる

Open-AIの強化学習のリスト[1]でVariational(変分)のカテゴリィにあった論文だが、環境から得られる相互情報量を変分を使っての最大化し、Optionを認識しようとするものである。 [1611.07507] Variational Intrinsic Control この論文はoptionの始点と終点(…

報酬に依らず暗示型optionを使った強化学習の論文を読んでみる

強化学習を定式化したR.Suttonが2000年にOptionという重要な概念を提供しており[1]これを知らなかったとは相当な勉強不足と認識せざる得ない。 強化学習では長い迷路を経てゴールに達する場合や非常に稀に得点が入る場合には、相当の試行を重ねる必要がある…

深層時系列を使った強化学習での汎用化の論文を読む

OpenAIのサイトで深層強化学習の主要論文(Keyword Papers)のリストが下記にある。 Key Papers in Deep RL — Spinning Up documentation この中で転移学習とメタ学習は学習効率に関して人間の高度な学習能力からアイデアを得ることが多いのでどうしても関心が…

大脳基底核の躊躇機能を模擬した強化学習の論文を読む

アルファGoを作ったDeepMindのハザビスは脳科学者として有名であったが、OISTの銅谷先生等は既に2000年に大脳基底核で観察される信号の状態が強化学習のベルマン方程式で表現できるとを示して、生理的な意味でも脳と強化学習は関連が注目されて来た。 globe.…

ベイズによる複数エージェントの強化学習の論文を読んでみる

最近は複数エージェントによる協調学習の理論や実験が著しい進展を遂げており、この方向で様々な研究成果が出現してくると思われる。しかし今回読んでみたベイズによる複数エージェントの強化学習の論文(BADモデル)はこの方向ではなく、カードゲームの様に参…

高速道路での複数車の協調学習の論文を読む

高速道路での協調学習として転移学習を使っている表題に引かれて論文を読んでみた。 著者はドイツ南部のFreiburg大学の人々の様だ。 [1810.08515v1] Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in Highway Traff…