Atariゲームのマルチタスクをネットワークの選別と重ね合わせで実現する論文を読んでみる

David HaのWorldModelsをマルチタスク化できないかと思ってゼミで相談したところ、転移学習の記事の中に下記のネットワークの重ね合わせでマルチタスクを実現した論文を紹介された。 arxiv.org この論文にはDavid Haも共著として入っているので先進的な強化…

Atariゲームの予測画像(worldModel)上で方策改善が効率的であった論文を読んでみる

David HaがVAEで一旦抽象化して生成した擬似動画をWorldModelと称し、このWorldModelの擬似動画での訓練が実画面でも効果があった事を報告している。 夢で学習する強化学習モデルの論文を読む - mabonki0725の日記 今回読んだ論文は複数のAtariゲームでのWor…

動画の状態推移を予測する強化学習の論文を読んでみる

動画から系列型のVAE方式による状態推移を予測する強化学習として、優秀な学習効率を達成したモデルの論文である。 [1811.04551] Learning Latent Dynamics for Planning from Pixels 系列型VAEの強化学習モデルWorld Modelを最初に発表したDavid Haも著者に…

Z-Forcing 再帰深層学習に導入した潜在変数の適合を強いる論文を読む

深層生成モデルを使った強化学習が発表されており、この安定化のためZ-Forcingなるモデルを使っていたので、この論文を読んでみる。 深層ベイズモデルによる長期予測での強化学習の論文を読む - mabonki0725の日記 VAEを発展させ再帰深層学習(LSTM)にも潜在…

深層ベイズモデルによる長期予測での強化学習の論文を読む

深層ベイズ(深層生成)モデルは複雑な事象の変化が背後に潜在変数の変動によるものと仮定し、深層ネットワークで最適な潜在変数の変動を解くものである。この論文は潜在変数の変動をデコードして事象を再現し、これを長期予測として強化学習に適用したもの…

室内画面の生成する階層型VAEの論文を読む

系列環境での強化学習を考えるため、まず環境を生成するモデルとして下記を読んでみる。 この論文は室内画面を多数生成するモデルで階層型のVAEを使っている。 [1807.09193] GRAINS: Generative Recursive Autoencoders for INdoor Scenes 階層型のVAEはSoch…

微細な手型実機ロボットでの強化学習の論文を読む

実機ロボットとしては歩行型ロボットや自律型操作ロボット(PR2)[1]があるが、今回の論文のロボットは微細な操作ができる手形のロボットの強化学習である。 [1808.00177] Learning Dexterous In-Hand Manipulation この手形ロボットでは微細な操作で下図の様…

因果関係を捉える強化学習の論文を読む

因果推論では2つの流派(ルービンとパール)があり、同じ因果を扱っているが方法が異なるので混乱してしまう。ルービンはスコア法に代表される因果推論であり、パールはベイジアンネットに代表される非巡回有向図(DAG:Directed Acyclic Graph)を用いる因果推…

最難問ゲーム「Montezuma逆襲」でぶちぎりの得点を出したUberの論文を読む

下図の様にDeepMindのDQN[1]でAtariゲームで最難問と云われる「Montezuma逆襲」でぶちぎりの得点を弾き出したUberの論文を読んでみる。(Uberはネットでのタクシー手配提供会社) この論文は下図の様に隔絶した得点を出したことが2018年末報告されており、その…

DeepMindの2D画像から3D動画を生成するGQNの論文を読んでみる

GQNは下図の様に隠れた物体が写っている2Dの画面を様々な方向から見た3D画像にして評判になっているが、これは現象から実体(3Dでの位置)を掴むベイズ式をうまく実用化しているからである。 まさしくプラトンのイデア論[1]を実現した画期的な試みである。画…

画像から実体の推移を予測して学習する論文を読んでみる

プラトンのイデア論では「本当にこの世に実在するのはイデアであって、我々が肉体的に感覚している対象や世界とはあくまでイデアの《似像》にすぎない」[1]としている。例えば3D迷路の場合、迷路内の自己位置が実体で、壁に囲まれた通路の視野が似像(画像)と…

砂のトラックを走行する実自動車での強化学習の論文を読む

下図の様な砂のトラックを走行する自動運転ではアクセルやハンドルの伝達誤差また砂利面との滑りや摩擦があり、予想し得ない事象が頻発すると想定する必要がある。下記の論文は実際の自動車での強化学習をMPPI(Model Predictiv Path Integral)と云う手法で実…

メタ学習による実世界での変異や誤差に対応した学習の論文を読む

ゲームの世界と違って実世界では次の様な実際の環境の変化に柔軟に対応して制御する必要がある。 ・接触摩擦 視覚ノイズ モータ誤差 地面の凹凸・勾配 空気抵抗 加速時間 この様な課題に対して、自動運転の場合は移動に誤差が生じ自己位置が不明になるので、…

言語解析で使うAttention型の深層学習がメタ学習を示す論文を読む

この論文は汎用翻訳モデルBertで使われるAttentionを使ったRNN型構造の深層学習が問題の構造に依らずメタ学習ができ、高次元のパターン認識や強化学習でも驚異的な性能を示したとするICRL2018報告である。 [1707.03141] A Simple Neural Attentive Meta-Lear…

封建的階層型の強化学習の論文を読んでみる

上位レベルはoption(サブゴールへの方策)を使った戦略、下位レベルはサブゴールまでを最適に行動する。この様に上位下達の封建的な分業関係を使った強化学習の論文(以下FuNs)を読んでみる。 [1703.01161] FeUdal Networks for Hierarchical Reinforcement L…

相互情報量を使ったOptionを認識する論文を読んでみる

Open-AIの強化学習のリスト[1]でVariational(変分)のカテゴリィにあった論文だが、環境から得られる相互情報量を変分を使っての最大化し、Optionを認識しようとするものである。 [1611.07507] Variational Intrinsic Control この論文はoptionの始点と終点(…

報酬に依らず暗示型optionを使った強化学習の論文を読んでみる

強化学習を定式化したR.Suttonが2000年にOptionという重要な概念を提供しており[1]これを知らなかったとは相当な勉強不足と認識せざる得ない。 強化学習では長い迷路を経てゴールに達する場合や非常に稀に得点が入る場合には、相当の試行を重ねる必要がある…

Berkeley学派のメタ学習の論文を読む

強化学習でのメタ学習の概念が理解できず、OpenAIサイトのリストにあったAbbeel率いるBerkeley学派の論文(以下)を読んでみる。 [1611.02779] RL$^2$: Fast Reinforcement Learning via Slow Reinforcement Learning (1) モデル この論文は下図の様にAgentに…

深層時系列を使った強化学習での汎用化の論文を読む

OpenAIのサイトで深層強化学習の主要論文(Keyword Papers)のリストが下記にある。 Key Papers in Deep RL — Spinning Up documentation この中で転移学習とメタ学習は学習効率に関して人間の高度な学習能力からアイデアを得ることが多いのでどうしても関心が…

深層時系列を使った汎用的な最適化の論文を読む

時系列を使って強化学習を汎用的に解くモデルが発表されており、この様な画期的な論文を知らなかったとは如何に勉強不足であるか思い知る機会となった。 [1611.05763] Learning to reinforcement learn もしこの論文があまり読まれていないなら、その理由は…

大脳基底核の躊躇機能を模擬した強化学習の論文を読む

アルファGoを作ったDeepMindのハザビスは脳科学者として有名であったが、OISTの銅谷先生等は既に2000年に大脳基底核で観察される信号の状態が強化学習のベルマン方程式で表現できるとを示して、生理的な意味でも脳と強化学習は関連が注目されて来た。 globe.…

ベイズによる複数エージェントの強化学習の論文を読んでみる

最近は複数エージェントによる協調学習の理論や実験が著しい進展を遂げており、この方向で様々な研究成果が出現してくると思われる。しかし今回読んでみたベイズによる複数エージェントの強化学習の論文(BADモデル)はこの方向ではなく、カードゲームの様に参…

高速道路での複数車の協調学習の論文を読む

高速道路での協調学習として転移学習を使っている表題に引かれて論文を読んでみた。 著者はドイツ南部のFreiburg大学の人々の様だ。 [1810.08515v1] Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in Highway Traff…

反証的な複数エージェントの強化学習を読む

複数エージェントの強化学習の論文を読むと必ず参照される「反証的複数エージェントモデル」(Counterfactual Multi-Agent:COMA)の論文を読んでみた。 [1705.08926] Counterfactual Multi-Agent Policy Gradients 表題にある反証的(counterfactual)とは、複…

複数エージェント間の均衡を図る強化学習の論文を読む

年初に発表された複数エージェントでの協調や敵対学習で画期的な性能を示したAbbeel達のモデル(MADDPG)があり、これには動画やGitHubにソースが公開されているので、様々な改良を加えた研究の成果がこれから発表されると思われる。 複数エージェントの協調学…

位置関係を畳込で抽象化した複数エージェントの論文を読む

IBMの恐神先生の複数エージェントの講演で出会った知人から、この講演の様にマルチエージェントの動作を動画と捉えConvolutionして特徴抽出するモデルが注目されていると聞いたが、この論文も複数エージェントの動作を動態グラフと見做してConvolutionで特徴…

共有知識での複数エージェントの強化学習の論文を読む

国際学会での発表の準備で忙しかったが、ようやく複数エージェントでの共通知識による強化学習(MACKRL)の論文を読んだ。 [1810.11702] Multi-Agent Common Knowledge Reinforcement Learning これは下図の様に相手が見えるAとBは、互いに密接に連絡し合う…

相手への影響を報酬の一部とした協調強化学習の論文を読む

エージェントの相互の影響を反映した社会的動機による協調強化学習と訳せばいいのか、次のタイトルの論文を読む。 [1810.08647v1] Intrinsic Social Motivation via Causal Influence in Multi-Agent RL 相手の行動と自分の内部状態を因果として次の行動を決…

人間のコントロールで早期に学習する強化学習の論文を読む

強化学習は学習に相当時間がかかる事が知られているが、人間が要所々にコントロールして教えれば学習が効果的にきるとの考えを実現した論文である。 [1709.10163] Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces 本論文の手法はDe…

DeepMindのチーム対戦の強化学習の論文を読む

DeepMindの複数エージェントのチームでの勝敗による強化学習が人間のレベルを超えており、この理論と実験の詳細な報告になっている。 [1807.01281v1] Human-level performance in first-person multiplayer games with population-based deep reinforcement …