大脳基底核の躊躇機能を模擬した強化学習の論文を読む

強化学習

アルファGoを作ったDeepMindのハザビスは脳科学者として有名であったが、OISTの銅谷先生等は既に2000年に大脳基底核で観察される信号の状態が強化学習のベルマン方程式で表現できるとを示して、生理的な意味でも脳と強化学習は関連が注目されて来た。 globe.…

2018-12-22

ベイズによる複数エージェントの強化学習の論文を読んでみる

強化学習

最近は複数エージェントによる協調学習の理論や実験が著しい進展を遂げており、この方向で様々な研究成果が出現してくると思われる。しかし今回読んでみたベイズによる複数エージェントの強化学習の論文(BADモデル)はこの方向ではなく、カードゲームの様に参…

2018-12-18

高速道路での複数車の協調学習の論文を読む

強化学習

高速道路での協調学習として転移学習を使っている表題に引かれて論文を読んでみた。著者はドイツ南部のFreiburg大学の人々の様だ。 [1810.08515v1] Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in Highway Traff…

2018-12-15

反証的な複数エージェントの強化学習を読む

複数エージェントの強化学習の論文を読むと必ず参照される「反証的複数エージェントモデル」(Counterfactual Multi-Agent：COMA)の論文を読んでみた。 [1705.08926] Counterfactual Multi-Agent Policy Gradients 表題にある反証的(counterfactual)とは、複…

2018-11-25

複数エージェント間の均衡を図る強化学習の論文を読む

AI論文

年初に発表された複数エージェントでの協調や敵対学習で画期的な性能を示したAbbeel達のモデル(MADDPG)があり、これには動画やGitHubにソースが公開されているので、様々な改良を加えた研究の成果がこれから発表されると思われる。複数エージェントの協調学…

2018-11-22

位置関係を畳込で抽象化した複数エージェントの論文を読む

IBMの恐神先生の複数エージェントの講演で出会った知人から、この講演の様にマルチエージェントの動作を動画と捉えConvolutionして特徴抽出するモデルが注目されていると聞いたが、この論文も複数エージェントの動作を動態グラフと見做してConvolutionで特徴…

2018-11-15

共有知識での複数エージェントの強化学習の論文を読む

国際学会での発表の準備で忙しかったが、ようやく複数エージェントでの共通知識による強化学習(MACKRL)の論文を読んだ。 [1810.11702] Multi-Agent Common Knowledge Reinforcement Learning これは下図の様に相手が見えるＡとＢは、互いに密接に連絡し合う…

2018-11-01

相手への影響を報酬の一部とした協調強化学習の論文を読む

AI論文

エージェントの相互の影響を反映した社会的動機による協調強化学習と訳せばいいのか、次のタイトルの論文を読む。 [1810.08647v1] Intrinsic Social Motivation via Causal Influence in Multi-Agent RL 相手の行動と自分の内部状態を因果として次の行動を決…

2018-10-28

人間のコントロールで早期に学習する強化学習の論文を読む

AI論文

強化学習は学習に相当時間がかかる事が知られているが、人間が要所々にコントロールして教えれば学習が効果的にきるとの考えを実現した論文である。 [1709.10163] Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces 本論文の手法はDe…

2018-10-21

DeepMindのチーム対戦の強化学習の論文を読む

AI論文

DeepMindの複数エージェントのチームでの勝敗による強化学習が人間のレベルを超えており、この理論と実験の詳細な報告になっている。 [1807.01281v1] Human-level performance in first-person multiplayer games with population-based deep reinforcement …

2018-10-15

他のエージェントとの協調特徴より複数エージェントの強化学習の論文を読む

この論文は他のエージェント間での協調特徴ベクトルでを深層学習のAttentionで摘出して、最適な協業をする複数エージェントの強化学習モデルである。 [1810.02912] Actor-Attention-Critic for Multi-Agent Reinforcement Learning 次の画期的な性能を示す中…

2018-10-07

視覚的な転移学習による強化学習の論文を読む

国際大会での発表の準備で疲弊しているが、「もくどく会」があったので途中まで読んでいたATARIゲームの転移学習による強化学習を読む [1809.00397v1] Visual Transfer between Atari Games using Competitive Reinforcement Learning この論文はATARIゲーム…

2018-09-25

敵対的擬似逆強化学習の論文を読む

AI論文ロボテックス

非線形な逆強化学習の最適解を効率的に図るため、擬似的な関数を定義してこれを使って最大最小値問題として、さらに非線形解を解くためGANを導入したモデルである。単なる逆強化学習をここまで複雑にしている論文は見たことがないが、実験結果では驚異的な性…

2018-09-24

因果情報量最大化による逆強化学習の論文を読む

AI論文ロボテックス

CMUの因果を取りいれた逆強化学習の発表でかなり古い論文である（2010ICML)。強化学習は時間経過に従って学習するモデルなのでタイムステップ間は完全に因果関係が成立する。熟練者の経路データから因果関係を情報量の最大化で求め次の行動を予測しようとす…

2018-08-28

有名な階層型強化学習の論文を読む

強化学習で階層型がよく話題になっているが、東大修士１年が勉強会で発表していたので興味を持ち読んでみた。 [1804.02808] Latent Space Policies for Hierarchical Reinforcement Learning バークレイの連中の論文で強化学習での階層間を深層学習と同様に…

2018-08-08

敵対的理論より学習環境に依存しない逆強化学習の論文を読む

AI論文

このバークレイ学派の論文の寄与は次の２点である [1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning ① 逆強化学習(IRL)はGANと同じ理論とする論文により IRLをGANの識別(Discriminator)関数の最適化で解く ②このモデ…

2018-08-05

複数エージェントの協調学習に成功している論文を読む

AI論文

この論文はデモが凄いので結構よく論文が読まれている。これはバークレイ学派 Abbeel達の発表である。 [1706.02275v3] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments この４つのデモでは、複数のエージェントが協調や敵対を報酬…

2018-08-03

複雑な最終状態を認識して行動する強化学習の論文を読む

AI論文

論文の図１にある様な複雑な最終状態(goal)を認識してロボットがそれに到達するモデルである。著者はバークレイ学派の重鎮 Sergey Levine等である。 [1807.04742] Visual Reinforcement Learning with Imagined Goals 実際の動作の動画は下記。下が最終状態 …

2018-08-01

夢で学習する強化学習モデルの論文を読む

AI論文

この論文のタイトルは「world Model」で世界認識と訳せばよい分らないが、大げさなタイトルに適った素晴らしい内容である。 [1803.10122v4] World Models 著者は日本では有名なDavid Haであるが、著者の一人はLSTMの開発者の一人でシュミットフーバー等(Schm…

2018-07-30

計画と目的を分離して協調する強化学習の論文を読む

AI論文

暫く発表が続いたので論文が読めず、浦島状態になっている。慌てて論文を読み始める。マルチエージェント関係の論文が相当優秀なものが紹介される様になり感動すら覚える。その一つとして強化学習の早期学習にカリキュラム開発と目的遂行を分離して学習する…

2018-07-29

データ分析ツールPADOCの発表

確率・統計

間違って2018/07/29日の記事を削除してしまったので再掲です。データ前処理研究会でデータ分析ツールPADOCを発表してきました。データ分析での前処理の議論が殆どないので、業務分析を兼ねたデータ前処理が全工程の７割を占めることが認識されていない様だ…

2018-05-03

HassabisのＡＩサーベイ論文の纏め

AIバブルと言われている昨今では、本来のAIの見通しが悪くなっていると思い、AIテーマを模索するため昨年発表されたアルファ碁を作り脳科学者であるHassabis@DeepMindのAIサーベイ論文を以下に纏めてみました。 Neuroscience-Inspired Artificial Intelligen…

2018-04-20

風景の要素の関係図から画像を生成する論文を読む

もう15年ぐらい聞いているＦM市川の琴音さんのブログに新居の写真が張ってあり、謎の物体が座椅子に乗っているので、画像から文章生成モデルで認識させてみた。 ameblo.jp 左写真は流石に新居とあって文章生成モデルではバスルームと認識され、座椅子は便器…

2018-04-01

DeepMindの「心の機械理論」Machine Theory to Mindの論文を読む

この論文は1978年に提唱された「心の理論」Theory to Mindでの人間が特有に持つ自己と他者の相違を理解する認識を深層モデルToMnet(Theory of Mind Network)で作ろうとしたものである。 Machine Theory of Mind | DeepMind 「心の理論」は次に詳しいが、幼児…