相手への影響を報酬の一部とした協調強化学習の論文を読む

エージェントの相互の影響を反映した社会的動機による協調強化学習と訳せばいいのか、次のタイトルの論文を読む。 [1810.08647v1] Intrinsic Social Motivation via Causal Influence in Multi-Agent RL 相手の行動と自分の内部状態を因果として次の行動を決…

人間のコントロールで早期に学習する強化学習の論文を読む

強化学習は学習に相当時間がかかる事が知られているが、人間が要所々にコントロールして教えれば学習が効果的にきるとの考えを実現した論文である。 [1709.10163] Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces 本論文の手法はDe…

DeepMindのチーム対戦の強化学習の論文を読む

DeepMindの複数エージェントのチームでの勝敗による強化学習が人間のレベルを超えており、この理論と実験の詳細な報告になっている。 [1807.01281v1] Human-level performance in first-person multiplayer games with population-based deep reinforcement …

他のエージェントとの協調特徴より複数エージェントの強化学習の論文を読む

この論文は他のエージェント間での協調特徴ベクトルでを深層学習のAttentionで摘出して、最適な協業をする複数エージェントの強化学習モデルである。 [1810.02912] Actor-Attention-Critic for Multi-Agent Reinforcement Learning 次の画期的な性能を示す中…

視覚的な転移学習による強化学習の論文を読む

国際大会での発表の準備で疲弊しているが、「もくどく会」があったので途中まで読んでいたATARIゲームの転移学習による強化学習を読む [1809.00397v1] Visual Transfer between Atari Games using Competitive Reinforcement Learning この論文はATARIゲーム…

敵対的擬似逆強化学習の論文を読む

非線形な逆強化学習の最適解を効率的に図るため、擬似的な関数を定義してこれを使って最大最小値問題として、さらに非線形解を解くためGANを導入したモデルである。単なる逆強化学習をここまで複雑にしている論文は見たことがないが、実験結果では驚異的な性…

因果情報量最大化による逆強化学習の論文を読む

CMUの因果を取りいれた逆強化学習の発表でかなり古い論文である(2010ICML)。強化学習は時間経過に従って学習するモデルなのでタイムステップ間は完全に因果関係が成立する。熟練者の経路データから因果関係を情報量の最大化で求め次の行動を予測しようとす…

有名な階層型強化学習の論文を読む

強化学習で階層型がよく話題になっているが、東大修士1年が勉強会で発表していたので興味を持ち読んでみた。 [1804.02808] Latent Space Policies for Hierarchical Reinforcement Learning バークレイの連中の論文で強化学習での階層間を深層学習と同様に…

敵対的理論より学習環境に依存しない逆強化学習の論文を読む

このバークレイ学派の論文の寄与は次の2点である [1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning ① 逆強化学習(IRL)はGANと同じ理論とする論文により IRLをGANの識別(Discriminator)関数の最適化で解く ②このモデ…

複数エージェントの協調学習に成功している論文を読む

この論文はデモが凄いので結構よく論文が読まれている。これはバークレイ学派 Abbeel達の発表である。 [1706.02275v3] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments この4つのデモでは、複数のエージェントが協調や敵対を報酬…

複雑な最終状態を認識して行動する強化学習の論文を読む

論文の図1にある様な複雑な最終状態(goal)を認識してロボットがそれに到達するモデルである。著者はバークレイ学派の重鎮 Sergey Levine等である。 [1807.04742] Visual Reinforcement Learning with Imagined Goals 実際の動作の動画は下記。下が最終状態 …

夢で学習する強化学習モデルの論文を読む

この論文のタイトルは「world Model」で世界認識と訳せばよい分らないが、大げさなタイトルに適った素晴らしい内容である。 [1803.10122v4] World Models 著者は日本では有名なDavid Haであるが、著者の一人はLSTMの開発者の一人でシュミットフーバー等(Schm…

計画と目的を分離して協調する強化学習の論文を読む

暫く発表が続いたので論文が読めず、浦島状態になっている。慌てて論文を読み始める。 マルチエージェント関係の論文が相当優秀なものが紹介される様になり感動すら覚える。その一つとして強化学習の早期学習にカリキュラム開発と目的遂行を分離して学習する…

データ分析ツールPADOCの発表

間違って2018/07/29日の記事を削除してしまったので再掲です。 データ前処理研究会でデータ分析ツールPADOCを発表してきました。 データ分析での前処理の議論が殆どないので、業務分析を兼ねたデータ前処理が全工程の7割を占めることが認識されていない様だ…

HassabisのAIサーベイ論文の纏め

AIバブルと言われている昨今では、本来のAIの見通しが悪くなっていると思い、AIテーマを模索するため昨年発表されたアルファ碁を作り脳科学者であるHassabis@DeepMindのAIサーベイ論文を以下に纏めてみました。 Neuroscience-Inspired Artificial Intelligen…

風景の要素の関係図から画像を生成する論文を読む

もう15年ぐらい聞いているFM市川の琴音さんのブログに新居の写真が張ってあり、謎の物体が座椅子に乗っているので、画像から文章生成モデルで認識させてみた。 ameblo.jp 左写真は流石に新居とあって文章生成モデルではバスルームと認識され、座椅子は便器…

DeepMindの「心の機械理論」Machine Theory to Mindの論文を読む

この論文は1978年に提唱された「心の理論」Theory to Mindでの人間が特有に持つ自己と他者の相違を理解する認識を深層モデルToMnet(Theory of Mind Network)で作ろうとしたものである。 Machine Theory of Mind | DeepMind 「心の理論」は次に詳しいが、幼児…

actor-criticの実装よりアルゴリズム逆読み

強化学習の勉強会でゲーム学習の高速化の解説があった。 強化学習の分散アーキテクチャ変遷 from 英爾 関谷 www.slideshare.net これらはActor-criticを基本とした並列化、GPUの使用で高速化を 図っている。ここでActor-criticのアルゴリズムを詳しく見てみ…

好奇心による強化学習の改善の理論化とその実証の論文を読む

人間本来が持つ好奇心は未知なものへのリスクやストレスに勝つていたので様々な発展と開拓があったのは間違いはない。強化学習の分野でも好奇心による改善はいくつか示されている。 mabonki0725.hatenablog.com Abbeel達は次の論文で、好奇心を情報量の改善…

異言語間で画像を基に会話で翻訳モデルを構築する論文を読む

本来の異言語間の会話は、最初は同じ物を指して互いの言葉を言い合ったのが始まりで、互いの交流の中で細かいニュアンスまで理解する様になったのは想像に難くない。 今回の翻訳モデルは上記の過程を深層学習でモデル化したものである。従来の翻訳は構文解析…

Googleロボットチームの強化学習のサーベイ記事を読む

arxivで月間2000本ぐらい投稿されるAI論文に圧倒されるが、Benny Britzには優良な深層学習や強化学習な論文をリストにしてもらい大変助かっている。Benny Britzが強化学習を否定的に書いている記事を紹介しているので興味をもったので読んでみた。 www.alexi…

Natureに掲載されたalphaGo_Zeroの記事を読む

教師有り学習としての棋譜学習をしなくても強化学習だけで無敵になったNatureに掲載されたAlphaGo_Zeroの記事を読んでみる。 deepmind.com 上記のURLでpaperを押下するとNatureのサイトに行くが、大学とか特定の大企業では無料でPDFがdownloadできるメニュー…

深層学習で将来予測して最適行動する強化学習の論文を読む

深層学習で将来予測(Nステップ先)を予測して報酬を獲得する強化学習の論文を読む。 [1707.03497] Value Prediction Network この論文はDQNの一手先のモデルを数手先を読むモデルに拡張したもので、かつ非常に洗練された構造をもつ強化学習である。 倉庫番…

回避機能をもつ逆強化学習の論文を読む

NIPS2017で発表されたAbbeel達の回避機能をもつ逆強化学習の下記の論文を読む。 「Inverse Reward Design」https://arxiv.org/abs/1711.02827 この論文は予想外の事象に衝き当った場合の報酬を如何に修正するかの話なので、報酬設定→行動経路→逆強化学習→報…

FIRLの論文を読むが難しい

ベイズによる逆強化学習が、杉山先生の密度比による逆強化学習と同じ手法になったので、残る有名な手法はFIRL(Feature Construction IRL)のみになった。 この手法は下記のAbbeel率いるBarkleyチームのLevineによる論文がある。 https://homes.cs.washington.…

ガウス過程による逆強化学習を実装(python)してみる

先日下記の論文について自分の理解を述べたが、文献に沿ったプログラムがあったので、これを自分なりに修正して稼動してみると、完全に自分の理解が誤っていたことが判明した。もし以前の記述を読んだ方がいれば大変申し訳なく、下記にて修正させて頂きます…

逆強化学習の課題にPlen2を使う

学校の研究でPlen2を使った逆強化学習を企画しているが、初めてPlen2を使ってみた。 このToyロボットはサーボモータでの稼動点が20点あり、ここに信号を送って逆強化学習の実証実験をする。 このPlen2はArdinoが20個のモータを制御する仕掛けで現在8万円弱と…

ガウス過程による逆強化学習の論文を読む

最大エントロフィの逆強化学習の性能はベイズより優れていることは実装してみて判明したが、下記の論文によるとガウス過程(Gaussian Process)を使った逆強化学習が傑出してよい性能を出している。 papers.nips.cc この論文の高速道路の実験例をみるとパトカ…

ベイズによる逆強化学習をC言語で実装してみた

本郷で行われた強化学習アーキテクト(2018/01/16)は千葉大学Dの石川翔太さんのベイズによる逆強化学習であった。 https://www.slideshare.net/ShotaIshikawa2/ss-86214928 最大エントロフィ法の逆強化学習を実装して見て納得できなかった事は、熟練者の方策…

UC.Berklayの協業強化学習の論文を読む

複数の自律体での強化学習は敵対的なモデルが一般的ですが、この論文は複数の自律体が協同で問題を達成するモデルの論文で、DeepMindと双璧を成すUC.Berklayの発表です。 https://people.eecs.berkeley.edu/~russell/papers/icml17ws-cirl. 「Efficent Coope…