2017-01-01から1年間の記事一覧

逆強化学習をC言語で実装してみた

(1) 逆強化学習をC言語で実装してみた 計算機どうしが互いに強化するモデル(敵対モデル)を構成するには、単独での初期学習が充実していないと実現しないのは、アルファー碁やbonanzaの示す所と考えています。 そこで敵対モデルを一般的に拡張した場合での…

不完全情報下のRegret最小化の拡張

(1) 不完全情報下のRegret最小化の拡張 これはボーカゲームの様に相手の手札が見えない場合の最適選択するモデルです。 このモデルはビジネスや部分的観察時の自動運転に応用でれば相当な威力を持つはずですが、この分野に詳しいDeNAのゲーム部門の人に聞い…

Openpose によるバスケット・フリースローの解析

Openposeを使ってバスケット・フリースローの解析をしてみました。 Openposeについて ・動的認識率はかなり高い ・骨格座標は結果は1フレーム毎にファイルに出力され加工しやす。 ・20フレーム毎/秒で(変更可能)で出力される ・但し2次元しか認識されな…

Team AIのLTで「AI理論とビジネス」について発表しました

Team AIのLTで下記について発表しました Team ai 3 from Masato Nakai www.slideshare.net

不完全情報下のRegret最小化(CFR)の論文を読む

ランニングできず 英語できず (1) 不完全情報下のRegret最小化(CFR:Counterfactual Regret Minimization)の論文を読む 「An Introduction to Counterfactual Regret Minimization」 http://modelai.gettysburg.edu/2013/cfr/cfr.pdf 現状の強化学習は「完全…

VAEによる半教師学習の論文を再読する

(1) VAEによる半教師学習の論文を再読する [1406.5298] Semi-Supervised Learning with Deep Generative Models T研のMゼミでの発表でこの論文を再読する。 再度して判明したことは ・変分限界の式以外は殆ど理解していなかった ・この論文は省略が多く難し…

エネルギーベースの逆強化学習の論文を再読する

ランニングできず 英語できず (1) エネルギーベースの逆強化学習の論文を再読する 「Maximum Entropy Deep Inverse Reinforcement Learning」 https://arxiv.org/abs/1507.04888 T研のMゼミでかなり以前に解説した論文でしたが、敵対的な逆強化学習の提案で…

エネルギー関数によるGANの論文を再読する

ランニングできず 英語できず (1) Bengioエネルギー関数によるGANの論文を再読する 「Deep Directed Generative Models with Energy-Based Probability Estimation」https://arxiv.org/abs/1606.03439 逆強化学習で最も一般的なエネルギーベースモデルが理解…

深層学習でプログラムを自動生成する論文を読む

ランニング30分 英語できず (1) 深層学習でプログラムを自動生成する論文を読む 「DeepCoder:Learning to Write Programs」 https://www.microsoft.com/en-us/research/publication/deepcoder-learning-write-programs/ この論文は下図の様なInput配列とOutp…

画像から原因と結果を識別する論文を読む

(1) 画像から原因と結果を識別する論文を読む 「Discovering Causal signals in Images」https://arxiv.org/abs/1605.08179 これもhttps://twitter.com/miyamotok0105さん主催の「酒を飲みながらCVPR2017の論文を読む会」で興味を持った一つです。 この論文…

交通事故が起こる危険な場面の画像生成の論文を読む

ランニング30分 英語できず (1) 交通事故が起こる危険な場面の画像生成の論文を読む 「Expecting the Unexpected:Training Detectors for Unusual Pedestrians with Adeversarial Imposers」 https://scirate.com/arxiv/1703.06283 この論文は歩行者の危険な…

分散型DQNの論文を読む

ランニング30分 英語できず (1) 分散型DQNの論文を読む 「A Distributional Perspective on Reinforcement Learning」 https://arxiv.org/abs/1707.06887 この論文はDeepMindのDQNの派生モデルを統合したRainbowの中核を成すもので、DQNに初めて行動価値関数…

DeepMindのDQN統合版のRainBowの論文を読む

ランニング30分 英語できず (1) DeepMindのDQN統合版のRainBowの論文を読む 「Rainbow:Combining Imporvements in Deep Reinforcement Learning」https://arxiv.org/abs/1710.02298 2013年に発表されたDeepMind社のDQNの派生版を統合したRainbowの高パフォー…

Abbeelの対等な敵対的ロボットの論文を読む

ランニング30分 英語できず (1) Abbeelの対等な敵対的ロボットの論文を読む 「Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments」https://arxiv.org/abs/1710.03641 対等な敵対的モデルはOpen-AIの手作りのカリキュ…

安定的な動作を保持するTRPOの論文を読む

ランニングできず 英語:Toiec 30分 (1) 安定的な動作を保持するTRPOの論文を読む 「Trust Region Policy Optimization」https://arxiv.org/abs/1502.05477 この論文はロボットの強化学習で革新的な貢献をしたモデルです。UC Berkeleyのロボットチームの Shul…

一般化報酬による高次元の強化学習の論文を読む

ランニングできず 英語できず (1) 一般化報酬による高次元の強化学習の論文を読む 「High - Dimensional Continuous Control using Generated Advantage Estimation」 https://arxiv.org/abs/1506.02438 ゲームの強化学習ではQ-learningが一般的ですが、人間…

複数人が競争する環境での強化学習の論文を読む

ランニングできず 英語できず (1) 複数人が競争する環境での強化学習の論文を読む 「Emergent Complexity via Multi-Agent Competition」https://arxiv.org/abs/1710.03748 複数の学習者が競争する環境は設定し易い環境ですが、強化学習にとっては最も複雑な…

難易度が高いゴールを自動的に見つける強化学習

ランニング30分 英語できず (1) 難易度が高いゴールを自動的に見つける強化学習 「Automatic Goal Generation for Reinforcement Learning Agents」 https://arxiv.org/abs/1705.06366 この論文には米国のロボット学の権威 Abbeel が参加しています。このモ…

分散型・敵対的生成モデルを使った逆強化学習の論文を読む

ランニング30分 英語できず (1)分散型・敵対的生成モデルを使った逆強化学習の論文を読む 「OptionGAN:Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reiforement Larning」https://arxiv.org/abs/1709.06683 この論文は逆強…

敵対的強化学習による耐久性向上の論文を読む

ランニング30分 英語できず (1) 敵対的強化学習による耐久性向上の論文を読む 「Robust Adversarial Reinforcement Learning」https://arxiv.org/abs/1703.02702v1 この論文は強化学習に敵対者を入れる事によって、より安定した強化学習を達成するものです。…

強化学習に敵対する学習の論文を読む

ランニングできず 英語できず (1) 強化学習に敵対する学習の論文を読む https://arxiv.org/abs/1703.06748kore これはAttariゲームの強化学習(Q-learning A3C)を効果的に敵対(妨害)するモデルの論文です。 敵対的な戦略として次の方法を採っています。 ・効…

第3回言語とロボテックスの持橋先生の講演を聴く

ランニングできず 英語できず (1) 第3回言語とロボテックスの持橋先生の講演を聴く (2017/10/7) 第三回 Language & Robotics 研究会 (LangRobo) の開催 - 記号創発システム論調査研究会 持橋先生の講演はCCG(combinatory Categorial Grammer)による構文解析…

独居見守り用one-class SVMの論文を読む

ランニングできず 英語できず (1) 独居見守り用one-class SVMの論文を読む 「One-Class SVM を用いた高齢者異常検出モニタリングシステム」 https://www.msi.co.jp/userconf/2013/pdf/muc13_CR12_1.pdf オープンポーズを利用したヘルスケア用システムとして…

ベイズ方式による多腕バンディッドの論文を読む

テニススクール90分 英語できず (1) ベイズ方式による多腕バンディッドの論文を読む 「Gaussian Process Optimization in the Bandit Setting:No Regret and Experimental Design」https://arxiv.org/abs/0912.3995 バンディッドとはスロットマシンのことで…

Efronの曲率による最尤値推定の論文を読む

ランニングできず 英語できず (1) Efronの曲率による最尤値推定の論文を読む 「Curvature and Inference for Maximum Likelihood Estimations」 http://statweb.stanford.edu/~ckirby/brad/papers/2016CurvatureInferenceMLEs.pdf T研のMゼミで解説された …

文体のパターンの繰返しで深層学習する論文を読む

ランニングできず 英語できず (1) 文体のパターンの繰返しで深層学習する論文を読む 「Dynamic Evaluation of Neural Sequence Models」 https://arxiv.org/abs/1709.07432 一般に自然言語の深層学習では単語間の繋がりをLSTMで学習することが殆どですが、近…

強化学習方程式の不確実性を報酬に取込む論文を読む

テニス2時間 英語できず (1) 強化学習方程式の不確実性を報酬に取込む論文を読む 「The Uncertaintry Bellman Equation and Exploration」 https://arxiv.org/abs/1709.05380 この論文は強化学習を解くBellman方程式の近似解での不確実性を見積りより精緻に…

中国人達の深層Treeモデルの論文を読む

ランニングできず 英語できず (1) 中国人達の深層Treeモデルの論文を読む 「Deep Forest: Towards an Alternative to Deep Neural Networks」 https://arxiv.org/abs/1702.08835 これは下図にある様にランダムフォレストを単に多層化したアンサンブル型モデ…

3D動画よりDoll House画像を生成する論文を読む

ランニング30分 英語できず (1) 3D動画よりDoll House画像を生成する論文を読む 「MatterPort3D: Learning from RGB-D Data in Indoor Environments」 https://arxiv.org/abs/1709.06158 この論文は屋内をMatterPort3Dと云う動画で撮ると、深層学習により屋…

PRMLのカルマンフィルターの変換行列の学習を理解する

ランニングできず 英語できず (1) PRMLのカルマンフィルターの変換行列の学習を理解する 「PRML 13§ 13.3.2 Learing in LDS」 カルマンフィルターの状態方程式はシステムモデルと観測モデルに分離して表現されます。 システム・モデル 但し 観測モデル 先日…