UC.Berklayの協業強化学習の論文を読む

複数の自律体での強化学習は敵対的なモデルが一般的ですが、この論文は複数の自律体が協同で問題を達成するモデルの論文で、DeepMindと双璧を成すUC.Berklayの発表です。 https://people.eecs.berkeley.edu/~russell/papers/icml17ws-cirl. 「Efficent Coope…

UC.Berkeleyの敵対的逆強化学習の論文を読む

Abbeel率いるUC.Berkeleyのロボット学者達が昨年初「GANとIRL」は同義だとする画期的な論文を示しましたが、この一派がまたこの論文に述べられたGAN-GCLを発展させたGANによるIRLの論文(Adversarial Inverse Reinforcement Learning:AIRL)を発表しました。 …

逆強化学習の深層学習版をC言語で実装してみた

年末にC言語でSGD(確率勾配法)で逆強化学習を実装したが、深層学習版でも実装してみました。 SGDと結果は殆ど変わりませんが、PRMLの5章にあるチューニング無しのロジックの深層学習なので相当時間がかかりました(約3分 SGD版の100倍)。 示せたことはC…

逆強化学習をC言語で実装してみた

(1) 逆強化学習をC言語で実装してみた 計算機どうしが互いに強化するモデル(敵対モデル)を構成するには、単独での初期学習が充実していないと実現しないのは、アルファー碁やbonanzaの示す所と考えています。 そこで敵対モデルを一般的に拡張した場合での…

不完全情報下のRegret最小化の拡張

(1) 不完全情報下のRegret最小化の拡張 これはボーカゲームの様に相手の手札が見えない場合の最適選択するモデルです。 このモデルはビジネスや部分的観察時の自動運転に応用でれば相当な威力を持つはずですが、この分野に詳しいDeNAのゲーム部門の人に聞い…

Openpose によるバスケット・フリースローの解析

Openposeを使ってバスケット・フリースローの解析をしてみました。 Openposeについて ・動的認識率はかなり高い ・骨格座標は結果は1フレーム毎にファイルに出力され加工しやす。 ・20フレーム毎/秒で(変更可能)で出力される ・但し2次元しか認識されな…

Team AIのLTで「AI理論とビジネス」について発表しました

Team AIのLTで下記について発表しました Team ai 3 from Masato Nakai www.slideshare.net

不完全情報下のRegret最小化(CFR)の論文を読む

ランニングできず 英語できず (1) 不完全情報下のRegret最小化(CFR:Counterfactual Regret Minimization)の論文を読む 「An Introduction to Counterfactual Regret Minimization」 http://modelai.gettysburg.edu/2013/cfr/cfr.pdf 現状の強化学習は「完全…

VAEによる半教師学習の論文を再読する

(1) VAEによる半教師学習の論文を再読する [1406.5298] Semi-Supervised Learning with Deep Generative Models T研のMゼミでの発表でこの論文を再読する。 再度して判明したことは ・変分限界の式以外は殆ど理解していなかった ・この論文は省略が多く難し…

エネルギーベースの逆強化学習の論文を再読する

ランニングできず 英語できず (1) エネルギーベースの逆強化学習の論文を再読する 「Maximum Entropy Deep Inverse Reinforcement Learning」 https://arxiv.org/abs/1507.04888 T研のMゼミでかなり以前に解説した論文でしたが、敵対的な逆強化学習の提案で…

エネルギー関数によるGANの論文を再読する

ランニングできず 英語できず (1) Bengioエネルギー関数によるGANの論文を再読する 「Deep Directed Generative Models with Energy-Based Probability Estimation」https://arxiv.org/abs/1606.03439 逆強化学習で最も一般的なエネルギーベースモデルが理解…

深層学習でプログラムを自動生成する論文を読む

ランニング30分 英語できず (1) 深層学習でプログラムを自動生成する論文を読む 「DeepCoder:Learning to Write Programs」 https://www.microsoft.com/en-us/research/publication/deepcoder-learning-write-programs/ この論文は下図の様なInput配列とOutp…

画像から原因と結果を識別する論文を読む

(1) 画像から原因と結果を識別する論文を読む 「Discovering Causal signals in Images」https://arxiv.org/abs/1605.08179 これもhttps://twitter.com/miyamotok0105さん主催の「酒を飲みながらCVPR2017の論文を読む会」で興味を持った一つです。 この論文…

交通事故が起こる危険な場面の画像生成の論文を読む

ランニング30分 英語できず (1) 交通事故が起こる危険な場面の画像生成の論文を読む 「Expecting the Unexpected:Training Detectors for Unusual Pedestrians with Adeversarial Imposers」 https://scirate.com/arxiv/1703.06283 この論文は歩行者の危険な…

分散型DQNの論文を読む

ランニング30分 英語できず (1) 分散型DQNの論文を読む 「A Distributional Perspective on Reinforcement Learning」 https://arxiv.org/abs/1707.06887 この論文はDeepMindのDQNの派生モデルを統合したRainbowの中核を成すもので、DQNに初めて行動価値関数…

DeepMindのDQN統合版のRainBowの論文を読む

ランニング30分 英語できず (1) DeepMindのDQN統合版のRainBowの論文を読む 「Rainbow:Combining Imporvements in Deep Reinforcement Learning」https://arxiv.org/abs/1710.02298 2013年に発表されたDeepMind社のDQNの派生版を統合したRainbowの高パフォー…

Abbeelの対等な敵対的ロボットの論文を読む

ランニング30分 英語できず (1) Abbeelの対等な敵対的ロボットの論文を読む 「Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments」https://arxiv.org/abs/1710.03641 対等な敵対的モデルはOpen-AIの手作りのカリキュ…

安定的な動作を保持するTRPOの論文を読む

ランニングできず 英語:Toiec 30分 (1) 安定的な動作を保持するTRPOの論文を読む 「Trust Region Policy Optimization」https://arxiv.org/abs/1502.05477 この論文はロボットの強化学習で革新的な貢献をしたモデルです。UC Berkeleyのロボットチームの Shul…

一般化報酬による高次元の強化学習の論文を読む

ランニングできず 英語できず (1) 一般化報酬による高次元の強化学習の論文を読む 「High - Dimensional Continuous Control using Generated Advantage Estimation」 https://arxiv.org/abs/1506.02438 ゲームの強化学習ではQ-learningが一般的ですが、人間…

複数人が競争する環境での強化学習の論文を読む

ランニングできず 英語できず (1) 複数人が競争する環境での強化学習の論文を読む 「Emergent Complexity via Multi-Agent Competition」https://arxiv.org/abs/1710.03748 複数の学習者が競争する環境は設定し易い環境ですが、強化学習にとっては最も複雑な…

難易度が高いゴールを自動的に見つける強化学習

ランニング30分 英語できず (1) 難易度が高いゴールを自動的に見つける強化学習 「Automatic Goal Generation for Reinforcement Learning Agents」 https://arxiv.org/abs/1705.06366 この論文には米国のロボット学の権威 Abbeel が参加しています。このモ…

分散型・敵対的生成モデルを使った逆強化学習の論文を読む

ランニング30分 英語できず (1)分散型・敵対的生成モデルを使った逆強化学習の論文を読む 「OptionGAN:Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reiforement Larning」https://arxiv.org/abs/1709.06683 この論文は逆強…

敵対的強化学習による耐久性向上の論文を読む

ランニング30分 英語できず (1) 敵対的強化学習による耐久性向上の論文を読む 「Robust Adversarial Reinforcement Learning」https://arxiv.org/abs/1703.02702v1 この論文は強化学習に敵対者を入れる事によって、より安定した強化学習を達成するものです。…

強化学習に敵対する学習の論文を読む

ランニングできず 英語できず (1) 強化学習に敵対する学習の論文を読む https://arxiv.org/abs/1703.06748kore これはAttariゲームの強化学習(Q-learning A3C)を効果的に敵対(妨害)するモデルの論文です。 敵対的な戦略として次の方法を採っています。 ・効…

第3回言語とロボテックスの持橋先生の講演を聴く

ランニングできず 英語できず (1) 第3回言語とロボテックスの持橋先生の講演を聴く (2017/10/7) 第三回 Language & Robotics 研究会 (LangRobo) の開催 - 記号創発システム論調査研究会 持橋先生の講演はCCG(combinatory Categorial Grammer)による構文解析…

独居見守り用one-class SVMの論文を読む

ランニングできず 英語できず (1) 独居見守り用one-class SVMの論文を読む 「One-Class SVM を用いた高齢者異常検出モニタリングシステム」 https://www.msi.co.jp/userconf/2013/pdf/muc13_CR12_1.pdf オープンポーズを利用したヘルスケア用システムとして…

ベイズ方式による多腕バンディッドの論文を読む

テニススクール90分 英語できず (1) ベイズ方式による多腕バンディッドの論文を読む 「Gaussian Process Optimization in the Bandit Setting:No Regret and Experimental Design」https://arxiv.org/abs/0912.3995 バンディッドとはスロットマシンのことで…

Efronの曲率による最尤値推定の論文を読む

ランニングできず 英語できず (1) Efronの曲率による最尤値推定の論文を読む 「Curvature and Inference for Maximum Likelihood Estimations」 http://statweb.stanford.edu/~ckirby/brad/papers/2016CurvatureInferenceMLEs.pdf T研のMゼミで解説された …

文体のパターンの繰返しで深層学習する論文を読む

ランニングできず 英語できず (1) 文体のパターンの繰返しで深層学習する論文を読む 「Dynamic Evaluation of Neural Sequence Models」 https://arxiv.org/abs/1709.07432 一般に自然言語の深層学習では単語間の繋がりをLSTMで学習することが殆どですが、近…

強化学習方程式の不確実性を報酬に取込む論文を読む

テニス2時間 英語できず (1) 強化学習方程式の不確実性を報酬に取込む論文を読む 「The Uncertaintry Bellman Equation and Exploration」 https://arxiv.org/abs/1709.05380 この論文は強化学習を解くBellman方程式の近似解での不確実性を見積りより精緻に…