HassabisのAIサーベイ論文の纏め

AIバブルと言われている昨今では、本来のAIの見通しが悪くなっていると思い、AIテーマを模索するため昨年発表されたアルファ碁を作り脳科学者であるHassabis@DeepMindのAIサーベイ論文を以下に纏めてみました。 Neuroscience-Inspired Artificial Intelligen…

風景の要素の関係図から画像を生成する論文を読む

もう15年ぐらい聞いているFM市川の琴音さんのブログに新居の写真が張ってあり、謎の物体が座椅子に乗っているので、画像から文章生成モデルで認識させてみた。 ameblo.jp 左写真は流石に新居とあって文章生成モデルではバスルームと認識され、座椅子は便器…

DeepMindの「心の機械理論」Machine Theory to Mindの論文を読む

この論文は1978年に提唱された「心の理論」Theory to Mindでの人間が特有に持つ自己と他者の相違を理解する認識を深層モデルToMnet(Theory of Mind Network)で作ろうとしたものである。 Machine Theory of Mind | DeepMind 「心の理論」は次に詳しいが、幼児…

actor-criticの実装よりアルゴリズム逆読み

強化学習の勉強会でゲーム学習の高速化の解説があった。 強化学習の分散アーキテクチャ変遷 from 英爾 関谷 www.slideshare.net これらはActor-criticを基本とした並列化、GPUの使用で高速化を 図っている。ここでActor-criticのアルゴリズムを詳しく見てみ…

好奇心による強化学習の改善の理論化とその実証の論文を読む

人間本来が持つ好奇心は未知なものへのリスクやストレスに勝つていたので様々な発展と開拓があったのは間違いはない。強化学習の分野でも好奇心による改善はいくつか示されている。 mabonki0725.hatenablog.com Abbeel達は次の論文で、好奇心を情報量の改善…

異言語間で画像を基に会話で翻訳モデルを構築する論文を読む

本来の異言語間の会話は、最初は同じ物を指して互いの言葉を言い合ったのが始まりで、互いの交流の中で細かいニュアンスまで理解する様になったのは想像に難くない。 今回の翻訳モデルは上記の過程を深層学習でモデル化したものである。従来の翻訳は構文解析…

Googleロボットチームの強化学習のサーベイ記事を読む

arxivで月間2000本ぐらい投稿されるAI論文に圧倒されるが、Benny Britzには優良な深層学習や強化学習な論文をリストにしてもらい大変助かっている。Benny Britzが強化学習を否定的に書いている記事を紹介しているので興味をもったので読んでみた。 www.alexi…

Natureに掲載されたalphaGo_Zeroの記事を読む

教師有り学習としての棋譜学習をしなくても強化学習だけで無敵になったNatureに掲載されたAlphaGo_Zeroの記事を読んでみる。 deepmind.com 上記のURLでpaperを押下するとNatureのサイトに行くが、大学とか特定の大企業では無料でPDFがdownloadできるメニュー…

深層学習で将来予測して最適行動する強化学習の論文を読む

深層学習で将来予測(Nステップ先)を予測して報酬を獲得する強化学習の論文を読む。 [1707.03497] Value Prediction Network この論文はDQNの一手先のモデルを数手先を読むモデルに拡張したもので、かつ非常に洗練された構造をもつ強化学習である。 倉庫番…

回避機能をもつ逆強化学習の論文を読む

NIPS2017で発表されたAbbeel達の回避機能をもつ逆強化学習の下記の論文を読む。 「Inverse Reward Design」https://arxiv.org/abs/1711.02827 この論文は予想外の事象に衝き当った場合の報酬を如何に修正するかの話なので、報酬設定→行動経路→逆強化学習→報…

FIRLの論文を読むが難しい

ベイズによる逆強化学習が、杉山先生の密度比による逆強化学習と同じ手法になったので、残る有名な手法はFIRL(Feature Construction IRL)のみになった。 この手法は下記のAbbeel率いるBarkleyチームのLevineによる論文がある。 https://homes.cs.washington.…

ガウス過程による逆強化学習を実装(python)してみる

先日下記の論文について自分の理解を述べたが、文献に沿ったプログラムがあったので、これを自分なりに修正して稼動してみると、完全に自分の理解が誤っていたことが判明した。もし以前の記述を読んだ方がいれば大変申し訳なく、下記にて修正させて頂きます…

逆強化学習の課題にPlen2を使う

学校の研究でPlen2を使った逆強化学習を企画しているが、初めてPlen2を使ってみた。 このToyロボットはサーボモータでの稼動点が20点あり、ここに信号を送って逆強化学習の実証実験をする。 このPlen2はArdinoが20個のモータを制御する仕掛けで現在8万円弱と…

ガウス過程による逆強化学習の論文を読む

最大エントロフィの逆強化学習の性能はベイズより優れていることは実装してみて判明したが、下記の論文によるとガウス過程(Gaussian Process)を使った逆強化学習が傑出してよい性能を出している。 papers.nips.cc この論文の高速道路の実験例をみるとパトカ…

ベイズによる逆強化学習をC言語で実装してみた

本郷で行われた強化学習アーキテクト(2018/01/16)は千葉大学Dの石川翔太さんのベイズによる逆強化学習であった。 https://www.slideshare.net/ShotaIshikawa2/ss-86214928 最大エントロフィ法の逆強化学習を実装して見て納得できなかった事は、熟練者の方策…

UC.Berklayの協業強化学習の論文を読む

複数の自律体での強化学習は敵対的なモデルが一般的ですが、この論文は複数の自律体が協同で問題を達成するモデルの論文で、DeepMindと双璧を成すUC.Berklayの発表です。 https://people.eecs.berkeley.edu/~russell/papers/icml17ws-cirl. 「Efficent Coope…

UC.Berkeleyの敵対的逆強化学習の論文を読む

Abbeel率いるUC.Berkeleyのロボット学者達が昨年初「GANとIRL」は同義だとする画期的な論文を示しましたが、この一派がまたこの論文に述べられたGAN-GCLを発展させたGANによるIRLの論文(Adversarial Inverse Reinforcement Learning:AIRL)を発表しました。 …

逆強化学習の深層学習版をC言語で実装してみた

年末にC言語でSGD(確率勾配法)で逆強化学習を実装したが、深層学習版でも実装してみました。 SGDと結果は殆ど変わりませんが、PRMLの5章にあるチューニング無しのロジックの深層学習なので相当時間がかかりました(約3分 SGD版の100倍)。 示せたことはC…

逆強化学習をC言語で実装してみた

(1) 逆強化学習をC言語で実装してみた 計算機どうしが互いに強化するモデル(敵対モデル)を構成するには、単独での初期学習が充実していないと実現しないのは、アルファー碁やbonanzaの示す所と考えています。 そこで敵対モデルを一般的に拡張した場合での…

不完全情報下のRegret最小化の拡張

(1) 不完全情報下のRegret最小化の拡張 これはボーカゲームの様に相手の手札が見えない場合の最適選択するモデルです。 このモデルはビジネスや部分的観察時の自動運転に応用でれば相当な威力を持つはずですが、この分野に詳しいDeNAのゲーム部門の人に聞い…

Openpose によるバスケット・フリースローの解析

Openposeを使ってバスケット・フリースローの解析をしてみました。 Openposeについて ・動的認識率はかなり高い ・骨格座標は結果は1フレーム毎にファイルに出力され加工しやす。 ・20フレーム毎/秒で(変更可能)で出力される ・但し2次元しか認識されな…

Team AIのLTで「AI理論とビジネス」について発表しました

Team AIのLTで下記について発表しました Team ai 3 from Masato Nakai www.slideshare.net

不完全情報下のRegret最小化(CFR)の論文を読む

ランニングできず 英語できず (1) 不完全情報下のRegret最小化(CFR:Counterfactual Regret Minimization)の論文を読む 「An Introduction to Counterfactual Regret Minimization」 http://modelai.gettysburg.edu/2013/cfr/cfr.pdf 現状の強化学習は「完全…

VAEによる半教師学習の論文を再読する

(1) VAEによる半教師学習の論文を再読する [1406.5298] Semi-Supervised Learning with Deep Generative Models T研のMゼミでの発表でこの論文を再読する。 再度して判明したことは ・変分限界の式以外は殆ど理解していなかった ・この論文は省略が多く難し…

エネルギーベースの逆強化学習の論文を再読する

ランニングできず 英語できず (1) エネルギーベースの逆強化学習の論文を再読する 「Maximum Entropy Deep Inverse Reinforcement Learning」 https://arxiv.org/abs/1507.04888 T研のMゼミでかなり以前に解説した論文でしたが、敵対的な逆強化学習の提案で…

エネルギー関数によるGANの論文を再読する

ランニングできず 英語できず (1) Bengioエネルギー関数によるGANの論文を再読する 「Deep Directed Generative Models with Energy-Based Probability Estimation」https://arxiv.org/abs/1606.03439 逆強化学習で最も一般的なエネルギーベースモデルが理解…

深層学習でプログラムを自動生成する論文を読む

ランニング30分 英語できず (1) 深層学習でプログラムを自動生成する論文を読む 「DeepCoder:Learning to Write Programs」 https://www.microsoft.com/en-us/research/publication/deepcoder-learning-write-programs/ この論文は下図の様なInput配列とOutp…

画像から原因と結果を識別する論文を読む

(1) 画像から原因と結果を識別する論文を読む 「Discovering Causal signals in Images」https://arxiv.org/abs/1605.08179 これもhttps://twitter.com/miyamotok0105さん主催の「酒を飲みながらCVPR2017の論文を読む会」で興味を持った一つです。 この論文…

交通事故が起こる危険な場面の画像生成の論文を読む

ランニング30分 英語できず (1) 交通事故が起こる危険な場面の画像生成の論文を読む 「Expecting the Unexpected:Training Detectors for Unusual Pedestrians with Adeversarial Imposers」 https://scirate.com/arxiv/1703.06283 この論文は歩行者の危険な…

分散型DQNの論文を読む

ランニング30分 英語できず (1) 分散型DQNの論文を読む 「A Distributional Perspective on Reinforcement Learning」 https://arxiv.org/abs/1707.06887 この論文はDeepMindのDQNの派生モデルを統合したRainbowの中核を成すもので、DQNに初めて行動価値関数…