ロボテックス

深層密度予測による擬似回数を報酬とした探索の論文を読む

ランニング30分 英語:Toeic 深層密度予測による擬似回数を報酬とした探索の論文を読む [1703.01310] Count-Based Exploration with Neural Density Models End-to-End(RealTimeで学習しながら問題を解く)のDQNは衝撃を与えたが、解けないゲームが多数ある…

深層強化学習で多次元の行動を分解して学習する論文を読む

ランニング30分 英語:Toeic 深層強化学習で多次元の行動を分解して学習する論文を読む 「Discrete Sequential Prediction of Continuous Action for Deep RL」 https://arxiv.org/abs/1705.05035 DQNでのQ-Learningが高次元のためSGDの深層学習が進まない問…

本能的に学習するロボット実験の論文を読む

ランニング30分 英語:できず (1) 本能的に学習するロボット実験の論文を読む 「Instrinstically Motivated Goal Exploaration Processes with Automatic Curriculum Learning」 https://arxiv.org/abs/1708.02190 今までの強化学習はゴール(目的)が明解で…

医療系の複合現実(MR)の技術サーベイ論文を読む

ランニング30分 英語:Toeic (1) 医療系の複合現実(MR)の技術サーベイ論文を読む 「Recent Developments and Future Challenges in Medical Mixed Reality」 https://arxiv.org/abs/1708.01225 AI会社の社長からこれは凄いという複合現実の論文を紹介された…

MicroSoftのゲームのアイテム毎に強化学習する論文を読む

テニス2時間 英語:できず (1) ゲームのアイテム毎に強化学習する論文を読む 「Hybrid Reward Architecher for Reinforcement Learning」https://arxiv.org/abs/1706.04208 (1.1) 論文の意図 DQNは画面からDNNで直接特徴量を読み取り、特徴量の変化と得点で…

DeepMindとOpenAIの人間の好みを反映した強化学習の論文を読む

ランニングできず 英語できず DeepMindとOpenAIの人間の好みを反映した強化学習の論文を読む 「Deep reinforcement learning from human preferences」 [1706.03741] Deep reinforcement learning from human preferences 強化学習では報酬が明確でないと学…

DeepMindのグループ対戦型ゲームの強化学習の論文を読む

ランニングできず 英語できず (1) DeepMindのグループ対戦型ゲームの強化学習の論文を読む 「StarCraft II: A New Challenge for Reinforcement Learning」 StarCraft II: A New Challenge for Reinforcement Learning | DeepMind StarCraftゲームはグループ…

DeepMindの外部メモリー型DQNの論文を読む

ランニングできず 英語できず (1) DeepMindの外部メモリー型DQNの論文を読む 「Neural Episodic Memory](2017/03) https://arxiv.org/abs/1703.01988 この論文は人間がある状況で適切な行動を求められる場合、過去の類似した状況での結果を思いだして行動選…

UCバークレィの特徴を理解して掴むロボットの論文を読む

ランニングできず 英語できず (1) UCバークレイの対象の特徴を理解して掴むロボットの論文を読む。 「End-to-End Learning of Semantic Grasping」 [1707.01932] End-to-End Learning of Semantic Grasping Abbeelが属するUCバークレィのロボットで、対象物…

DeepMindの実機ロボット学習の論文を読む

ランニングできず 英語:Toiec (1)windows VirtualBox Ubuntu pythonのモデル開発環境で躓いたことを記す。 VirtualBoxでwindowsのフォルダーを共有指定して、Ubuntuでマウントした場合、読み込みはできるが書き込みは「プロトコルエラー」でできない場合があ…

DeepMindの幼児の視覚理解モデルの論文を纏める

テニス2時間 英語:できず (1) DeepMindの幼児の視覚理解の論文を読了する Early Visual Concept Learning with Unsupervised Deep Learning 知識が無い幼児が早期に外界に適応するのは、非教師モデルでしか行えないはずで、生成モデルで理解しているとの論…

DeepMindの幼児の早期理解の論文を読む

ランニングできず 英語:Move Starwars (1)DeepMindのハザビスが問題提起した、幼児が環境を急速に理解する謎についての論文を読む。 [1606.05579] Early Visual Concept Learning with Unsupervised Deep Learning 幼児は知識獲得前なので教師あり(ラベル…

好奇心を報酬とする理論

ランニング30分 英語できず (1) 好奇心を報酬とする論文を読了する [1705.05363] Curiosity-driven Exploration by Self-supervised Prediction 下図の様な迷路ゲーム(Viza-Doom)の場合、迷路の端に報酬があり(右端の図)、各場面では殆ど報酬を見ることが…

好奇心を本能的な報酬として解く論文

ランニングできず 英語:Toeic (1) 好奇心による強化学習の論文を読む。 「Curiosity-driven Exploaration by Self-Supervised Prediction」 明示的な報酬を外生的報酬(extrinsic reward)とし、好奇心を本能的な報酬(instrinsic reward)として区別して、明示…

DeepMindの方向性を纏める

テニススクール90分 英語:movie Fully (1)DeepMindのハザビスの「脳科学とAIの関連」の記事を纏める 「Neuroscience inspiered AI」 何故この様な記事が書いたのか理由の推察であるが、DQNやAlpha碁の偉大な事業を深層強化学習で達成したが、さらに複雑な事…

DeepMind AIの過去・現在・将来の概観記事を読む

ランニング30分 英語できず 引き続きDeepMindハザビスの「AIと脳神経学の関連」の記事を読む。 「Neuroscience-Inspired AI」 次の様なDeepMindが構想するAIを述べており、既に素晴らしい成果であるDQNやAlpha碁を超えて、さらに実用的で複雑な問題を解決あ…

Abbeelの論文アルゴリズムは報酬が得やすい初期状態の探索になっている

テニス4時間 英語:できず (1)AbbeelのGoalからの強化学習の論文の下記のアルゴリズムがGoalからStartへ明示的に逆に辿る手続きになっていなく、理解が難しい。 このAlgorithm1の4、5行目のをStartsに入れているのは間違に見えるが、Goal近辺から摂動を与…

ロボット学で学習手順を生成する論文を読む

ランニング30分 英語できず (1) 米国のロボット学の権威Pieter Abbeelが参加した論文「Reverse Curriculm Generation for Reinforcement Learning」を読む。これは最終目的から初期状態へ逆に解く強化学習によって自動操縦手順を自動生成するモデルである。 …

DeepMindの倉庫番ゲームの論文を纏める

ランニングできず 英語:Toeic (1) DeepMindの倉庫番ゲームの論文「Imagination-Augmented Agent s for Deep Reiforcement Learning」がやっと読了した。難航した理由は以下である。 ・重要な単語の意味の取り間違え (Augmented →Argmented rollout→rollove…

ROSのLT大会 優秀だが統計的アプローチは無い

テニススクール90分 英語できず (1) Lie-Access Neural Turing Machine の論文の纏めの続き。M君やF君の資料を読み解釈の修正をする。F君の資料にLie-Accessがあり先見性に驚いたが、NTMがLie群上で解釈できるとは思っていない様だ。 (2) ROSのLT大会に参加…

DeepMindの多様な環境で順番学習の有用性の論文

ランニング30分 英語できず (1) DeepMindの論文「多様な環境での身体特性の出現」を読む。 表題:Emagency of Locomotion Beheviors in Rich Enviroments https://arxiv.org/abs/1707.02286 動画: www.youtube.com これは、GANによる強化学習「Learning hum…

DeepMindのProgrammable Agentを読んだ

テニス90分 英語できず (1) DeepMind Programmable Agentを読んだ 所謂zero-shot(未経験)の知識を獲得するモデルの話。UNREALの自然言語理解がone-shot(経験知識)なので、こちらは与えられたプログラムで状況を理解して、未知な状況を認識する。表題はこれを…

DeepMindのProgramable Agentを読む

テニス・ランニング2時間 英語 30分 Bone Idendity (1) SNSからの情報で、DeepMindの下記論文を読み始める。 https://arxiv.org/abs/1706.06383 DeepMindの3D世界の自然言語理解については、One-Shot学習で敵対的学習や転移学習の一般化や拡張する理解が行わ…

DeepMindが自然言語理解の2難題を解決した

ランニングできず 英語30分 The Boune Leagacy (1) DeepMindの自然言語を理解するUNREALモデルの論文を読み、深い感動を覚える。 このモデルは自然言語理解に於ける2つの懸案事項を解決している。 ・計算機が言語を教える事を可能にした。 言語理解で正解す…

DeepMindのUNREALの自然言語理解

ランニングできず 英語30分 (1) DeepMind UNREALでの自然言語理解の論文を読む Grounded Language Learning in a Simulated 3D World | DeepMind これは迷路ゲームの中に報酬が複数ある。 a)報酬の取り方の順序を自然言語で与える。 b)実際にその順番で報酬…

DeepMindのUNREALでの暗黙の特徴量

ランニング30分 英語:How the West Won (1) Deep MindのUNREALを読む。このモデルは迷宮(Labyrinth)Gameを対象としているので、コーナを曲がると別画面になるため、直接に画像から特徴量を抽出するDQNモデルは1部しか使えない。 このモデルでは、様々な暗…

DeepMindのUNREALを再度読む

ランニング30分 英語できず (1) データからベイジアンネット生成による特徴量は、データ項目が十分あり、そこからネットを構成するノードに限定できたものとなる。データ項目に含まれない場合、認識できない。逆強化学習も十分な特徴量を構成できるデータ項…

データからベイジアンネットを自動生成モデルを使う

ランニングできず 英語できず (1) 動的ベイジアンネットによるロボット制御では、Thrunの確率ロボテックスのPOMDPでも行っている。これは方策πが確信度の関数で最大価値Vを計算するモデルであるので、確信度を動的ベイジアンネットで計算するものである。 ベ…

動的ベイジアンネットのノードが特徴量の空間を張る

ランニングできず 英語できず (1) 特徴量抽出の論文を探す。古いが、ようやく強化学習で動的ベイジアンネットによる特徴量抽出の論文に行き当たる。やはり確率的遷移のベイジアンネットの各ノードが特徴量を張るのかと思い当たる。 https://www.researchgate…

大学の研修の被監査で、想定通り失望する

ランニングできず 英語できず (1) 確率ロボテックス輪読 15章POMDP 方策(確信度)による価値推定 (2) Singularity勉強 特徴量の摘出の文献探し (3) 大学の研修の被監査 監査人はデザイン出身の若い学者 殆ど中身が理解できないので、プレゼンの方法のみ監査…