2018-02-01から1ヶ月間の記事一覧

異言語間で画像を基に会話で翻訳モデルを構築する論文を読む

本来の異言語間の会話は、最初は同じ物を指して互いの言葉を言い合ったのが始まりで、互いの交流の中で細かいニュアンスまで理解する様になったのは想像に難くない。 今回の翻訳モデルは上記の過程を深層学習でモデル化したものである。従来の翻訳は構文解析…

Googleロボットチームの強化学習のサーベイ記事を読む

arxivで月間2000本ぐらい投稿されるAI論文に圧倒されるが、Benny Britzには優良な深層学習や強化学習な論文をリストにしてもらい大変助かっている。Benny Britzが強化学習を否定的に書いている記事を紹介しているので興味をもったので読んでみた。 www.alexi…

Natureに掲載されたalphaGo_Zeroの記事を読む

教師有り学習としての棋譜学習をしなくても強化学習だけで無敵になったNatureに掲載されたAlphaGo_Zeroの記事を読んでみる。 deepmind.com 上記のURLでpaperを押下するとNatureのサイトに行くが、大学とか特定の大企業では無料でPDFがdownloadできるメニュー…

深層学習で将来予測して最適行動する強化学習の論文を読む

深層学習で将来予測(Nステップ先)を予測して報酬を獲得する強化学習の論文を読む。 [1707.03497] Value Prediction Network この論文はDQNの一手先のモデルを数手先を読むモデルに拡張したもので、かつ非常に洗練された構造をもつ強化学習である。 倉庫番…

回避機能をもつ逆強化学習の論文を読む

NIPS2017で発表されたAbbeel達の回避機能をもつ逆強化学習の下記の論文を読む。 「Inverse Reward Design」https://arxiv.org/abs/1711.02827 この論文は予想外の事象に衝き当った場合の報酬を如何に修正するかの話なので、報酬設定→行動経路→逆強化学習→報…

FIRLの論文を読むが難しい

ベイズによる逆強化学習が、杉山先生の密度比による逆強化学習と同じ手法になったので、残る有名な手法はFIRL(Feature Construction IRL)のみになった。 この手法は下記のAbbeel率いるBarkleyチームのLevineによる論文がある。 https://homes.cs.washington.…

ガウス過程による逆強化学習を実装(python)してみる

先日下記の論文について自分の理解を述べたが、文献に沿ったプログラムがあったので、これを自分なりに修正して稼動してみると、完全に自分の理解が誤っていたことが判明した。もし以前の記述を読んだ方がいれば大変申し訳なく、下記にて修正させて頂きます…