因果関係を捉える強化学習の論文を読む

因果推論では2つの流派(ルービンとパール)があり、同じ因果を扱っているが方法が異なるので混乱してしまう。ルービンはスコア法に代表される因果推論であり、パールはベイジアンネットに代表される非巡回有向図(DAG:Directed Acyclic Graph)を用いる因果推…

最難問ゲーム「Montezuma逆襲」でぶちぎりの得点を出したUberの論文を読む

下図の様にDeepMindのDQN[1]でAtariゲームで最難問と云われる「Montezuma逆襲」でぶちぎりの得点を弾き出したUberの論文を読んでみる。(Uberはネットでのタクシー手配提供会社) この論文は下図の様に隔絶した得点を出したことが2018年末報告されており、その…

DeepMindの2D画像から3D動画を生成するGQNの論文を読んでみる

GQNは下図の様に隠れた物体が写っている2Dの画面を様々な方向から見た3D画像にして評判になっているが、これは現象から実体(3Dでの位置)を掴むベイズ式をうまく実用化しているからである。 まさしくプラトンのイデア論[1]を実現した画期的な試みである。画…

画像から実体の推移を予測して学習する論文を読んでみる

プラトンのイデア論では「本当にこの世に実在するのはイデアであって、我々が肉体的に感覚している対象や世界とはあくまでイデアの《似像》にすぎない」[1]としている。例えば3D迷路の場合、迷路内の自己位置が実体で、壁に囲まれた通路の視野が似像(画像)と…

砂のトラックを走行する実自動車での強化学習の論文を読む

下図の様な砂のトラックを走行する自動運転ではアクセルやハンドルの伝達誤差また砂利面との滑りや摩擦があり、予想し得ない事象が頻発すると想定する必要がある。下記の論文は実際の自動車での強化学習をMPPI(Model Predictiv Path Integral)と云う手法で実…

メタ学習による実世界での変異や誤差に対応した学習の論文を読む

ゲームの世界と違って実世界では次の様な実際の環境の変化に柔軟に対応して制御する必要がある。 ・接触摩擦 視覚ノイズ モータ誤差 地面の凹凸・勾配 空気抵抗 加速時間 この様な課題に対して、自動運転の場合は移動に誤差が生じ自己位置が不明になるので、…

言語解析で使うAttention型の深層学習がメタ学習を示す論文を読む

この論文は汎用翻訳モデルBertで使われるAttentionを使ったRNN型構造の深層学習が問題の構造に依らずメタ学習ができ、高次元のパターン認識や強化学習でも驚異的な性能を示したとするICRL2018報告である。 [1707.03141] A Simple Neural Attentive Meta-Lear…

封建的階層型の強化学習の論文を読んでみる

上位レベルはoption(サブゴールへの方策)を使った戦略、下位レベルはサブゴールまでを最適に行動する。この様に上位下達の封建的な分業関係を使った強化学習の論文(以下FuNs)を読んでみる。 [1703.01161] FeUdal Networks for Hierarchical Reinforcement L…

相互情報量を使ったOptionを認識する論文を読んでみる

Open-AIの強化学習のリスト[1]でVariational(変分)のカテゴリィにあった論文だが、環境から得られる相互情報量を変分を使っての最大化し、Optionを認識しようとするものである。 [1611.07507] Variational Intrinsic Control この論文はoptionの始点と終点(…

報酬に依らず暗示型optionを使った強化学習の論文を読んでみる

強化学習を定式化したR.Suttonが2000年にOptionという重要な概念を提供しており[1]これを知らなかったとは相当な勉強不足と認識せざる得ない。 強化学習では長い迷路を経てゴールに達する場合や非常に稀に得点が入る場合には、相当の試行を重ねる必要がある…

Berkeley学派のメタ学習の論文を読む

強化学習でのメタ学習の概念が理解できず、OpenAIサイトのリストにあったAbbeel率いるBerkeley学派の論文(以下)を読んでみる。 [1611.02779] RL$^2$: Fast Reinforcement Learning via Slow Reinforcement Learning (1) モデル この論文は下図の様にAgentに…

深層時系列を使った強化学習での汎用化の論文を読む

OpenAIのサイトで深層強化学習の主要論文(Keyword Papers)のリストが下記にある。 Key Papers in Deep RL — Spinning Up documentation この中で転移学習とメタ学習は学習効率に関して人間の高度な学習能力からアイデアを得ることが多いのでどうしても関心が…

深層時系列を使った汎用的な最適化の論文を読む

時系列を使って強化学習を汎用的に解くモデルが発表されており、この様な画期的な論文を知らなかったとは如何に勉強不足であるか思い知る機会となった。 [1611.05763] Learning to reinforcement learn もしこの論文があまり読まれていないなら、その理由は…

大脳基底核の躊躇機能を模擬した強化学習の論文を読む

アルファGoを作ったDeepMindのハザビスは脳科学者として有名であったが、OISTの銅谷先生等は既に2000年に大脳基底核で観察される信号の状態が強化学習のベルマン方程式で表現できるとを示して、生理的な意味でも脳と強化学習は関連が注目されて来た。 globe.…

ベイズによる複数エージェントの強化学習の論文を読んでみる

最近は複数エージェントによる協調学習の理論や実験が著しい進展を遂げており、この方向で様々な研究成果が出現してくると思われる。しかし今回読んでみたベイズによる複数エージェントの強化学習の論文(BADモデル)はこの方向ではなく、カードゲームの様に参…

高速道路での複数車の協調学習の論文を読む

高速道路での協調学習として転移学習を使っている表題に引かれて論文を読んでみた。 著者はドイツ南部のFreiburg大学の人々の様だ。 [1810.08515v1] Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in Highway Traff…

反証的な複数エージェントの強化学習を読む

複数エージェントの強化学習の論文を読むと必ず参照される「反証的複数エージェントモデル」(Counterfactual Multi-Agent:COMA)の論文を読んでみた。 [1705.08926] Counterfactual Multi-Agent Policy Gradients 表題にある反証的(counterfactual)とは、複…

複数エージェント間の均衡を図る強化学習の論文を読む

年初に発表された複数エージェントでの協調や敵対学習で画期的な性能を示したAbbeel達のモデル(MADDPG)があり、これには動画やGitHubにソースが公開されているので、様々な改良を加えた研究の成果がこれから発表されると思われる。 複数エージェントの協調学…

位置関係を畳込で抽象化した複数エージェントの論文を読む

IBMの恐神先生の複数エージェントの講演で出会った知人から、この講演の様にマルチエージェントの動作を動画と捉えConvolutionして特徴抽出するモデルが注目されていると聞いたが、この論文も複数エージェントの動作を動態グラフと見做してConvolutionで特徴…

共有知識での複数エージェントの強化学習の論文を読む

国際学会での発表の準備で忙しかったが、ようやく複数エージェントでの共通知識による強化学習(MACKRL)の論文を読んだ。 [1810.11702] Multi-Agent Common Knowledge Reinforcement Learning これは下図の様に相手が見えるAとBは、互いに密接に連絡し合う…

相手への影響を報酬の一部とした協調強化学習の論文を読む

エージェントの相互の影響を反映した社会的動機による協調強化学習と訳せばいいのか、次のタイトルの論文を読む。 [1810.08647v1] Intrinsic Social Motivation via Causal Influence in Multi-Agent RL 相手の行動と自分の内部状態を因果として次の行動を決…

人間のコントロールで早期に学習する強化学習の論文を読む

強化学習は学習に相当時間がかかる事が知られているが、人間が要所々にコントロールして教えれば学習が効果的にきるとの考えを実現した論文である。 [1709.10163] Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces 本論文の手法はDe…

DeepMindのチーム対戦の強化学習の論文を読む

DeepMindの複数エージェントのチームでの勝敗による強化学習が人間のレベルを超えており、この理論と実験の詳細な報告になっている。 [1807.01281v1] Human-level performance in first-person multiplayer games with population-based deep reinforcement …

他のエージェントとの協調特徴より複数エージェントの強化学習の論文を読む

この論文は他のエージェント間での協調特徴ベクトルでを深層学習のAttentionで摘出して、最適な協業をする複数エージェントの強化学習モデルである。 [1810.02912] Actor-Attention-Critic for Multi-Agent Reinforcement Learning 次の画期的な性能を示す中…

視覚的な転移学習による強化学習の論文を読む

国際大会での発表の準備で疲弊しているが、「もくどく会」があったので途中まで読んでいたATARIゲームの転移学習による強化学習を読む [1809.00397v1] Visual Transfer between Atari Games using Competitive Reinforcement Learning この論文はATARIゲーム…

敵対的擬似逆強化学習の論文を読む

非線形な逆強化学習の最適解を効率的に図るため、擬似的な関数を定義してこれを使って最大最小値問題として、さらに非線形解を解くためGANを導入したモデルである。単なる逆強化学習をここまで複雑にしている論文は見たことがないが、実験結果では驚異的な性…

因果情報量最大化による逆強化学習の論文を読む

CMUの因果を取りいれた逆強化学習の発表でかなり古い論文である(2010ICML)。強化学習は時間経過に従って学習するモデルなのでタイムステップ間は完全に因果関係が成立する。熟練者の経路データから因果関係を情報量の最大化で求め次の行動を予測しようとす…

有名な階層型強化学習の論文を読む

強化学習で階層型がよく話題になっているが、東大修士1年が勉強会で発表していたので興味を持ち読んでみた。 [1804.02808] Latent Space Policies for Hierarchical Reinforcement Learning バークレイの連中の論文で強化学習での階層間を深層学習と同様に…

敵対的理論より学習環境に依存しない逆強化学習の論文を読む

このバークレイ学派の論文の寄与は次の2点である [1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning ① 逆強化学習(IRL)はGANと同じ理論とする論文により IRLをGANの識別(Discriminator)関数の最適化で解く ②このモデ…

複数エージェントの協調学習に成功している論文を読む

この論文はデモが凄いので結構よく論文が読まれている。これはバークレイ学派 Abbeel達の発表である。 [1706.02275v3] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments この4つのデモでは、複数のエージェントが協調や敵対を報酬…