2017-08-01から1ヶ月間の記事一覧

DeepMindの強化学習での歪んだ報酬の対処の論文を読む

テニススクール90分 英語できず DeepMindの強化学習での歪んだ報酬の対処の論文を読む [1705.08417] Reinforcement Learning with a Corrupted Reward Channel この論文は報酬が誤解釈や観測失敗やノイズがある場合の対処を論じたもので、かなり長文で数学よ…

Abbeelの計画問題の強化学習の論文を読む

ランニング30分 英語できず Abbeelの計画問題の強化学習の論文を読む 「Learning Generalized Reactive Plicies using Deep Neural Network」 https://arxiv.org/abs/1708.07280v1 ロボット学の第一人者USCバークレイのPieter Abbeelが参加している倉庫ゲー…

強化学習でDeepLearnigのネット構造を自動生成する論文を読む

ランニングできず 英語:Toeic 強化学習でDeepLearnigのネット構造を自動生成する論文を読む [1708.05552] Practical Network Blocks Design with Q-Learning 下図の様に画像識別型のDeepLearningは限界まで識別精度を上げるため、複雑なネットワーク構成を人…

Googleが発表したBlack-Box型の最適化サービスの報告を読む

テニス2時間 英語:toeic Googleが発表したBlack-Box型の最適化サービスの報告を読む Google Vizier: A Service for Black-Box Optimization 機械学習系の汎用的な最適化をCloudでサービスする報告である。Black-Boxである点に興味を持って読んでみたがBlack…

深層密度予測による擬似回数を報酬とした探索の論文を読む

ランニング30分 英語:Toeic 深層密度予測による擬似回数を報酬とした探索の論文を読む [1703.01310] Count-Based Exploration with Neural Density Models End-to-End(RealTimeで学習しながら問題を解く)のDQNは衝撃を与えたが、解けないゲームが多数ある…

深層型EMモデルの論文を読む

ランニング30分 英語:toeic 深層型EMモデルの論文を読む 「Neural Expection Maximization」https://arxiv.org/abs/1708.03498 最近はやりの深層学習型の生成モデルである。スイスのAI研究所IDSIAが投稿したものである。 基本的に生成モデルはデータから隠れ…

深層強化学習で多次元の行動を分解して学習する論文を読む

ランニング30分 英語:Toeic 深層強化学習で多次元の行動を分解して学習する論文を読む 「Discrete Sequential Prediction of Continuous Action for Deep RL」 https://arxiv.org/abs/1705.05035 DQNでのQ-Learningが高次元のためSGDの深層学習が進まない問…

本能的に学習するロボット実験の論文を読む

ランニング30分 英語:できず (1) 本能的に学習するロボット実験の論文を読む 「Instrinstically Motivated Goal Exploaration Processes with Automatic Curriculum Learning」 https://arxiv.org/abs/1708.02190 今までの強化学習はゴール(目的)が明解で…

DeepMindとヒントンによる配置認識の生成モデルの論文を読む

ランニング30分 英語できず DeepMindとヒントンの状況認識の生成モデルの論文を読む 「Attend,Infer,Repeat:Fast Scene Understannding with Generative Models」 https://arxiv.org/abs/1603.08575 DeepMindのハサビスのサーベイ論文「人間の脳と人工知能」…

医療系の複合現実(MR)の技術サーベイ論文を読む

ランニング30分 英語:Toeic (1) 医療系の複合現実(MR)の技術サーベイ論文を読む 「Recent Developments and Future Challenges in Medical Mixed Reality」 https://arxiv.org/abs/1708.01225 AI会社の社長からこれは凄いという複合現実の論文を紹介された…

MicroSoftのゲームのアイテム毎に強化学習する論文を読む

テニス2時間 英語:できず (1) ゲームのアイテム毎に強化学習する論文を読む 「Hybrid Reward Architecher for Reinforcement Learning」https://arxiv.org/abs/1706.04208 (1.1) 論文の意図 DQNは画面からDNNで直接特徴量を読み取り、特徴量の変化と得点で…

Bradley-Terryを使ったツイッター分析の論文を読む

ランニング30分 英語:できず 神嶌先生が出てくるツイッター分析の論文を読む 「被フォロー順序に基づくユーザの役割推定方法の提案」(2017) http://db-event.jpn.org/deim2017/papers/209.pdf 以前書いた人間の感性を利用した強化学習で、2つのゲームビデ…

DeepMindとOpenAIの人間の好みを反映した強化学習の論文を読む

ランニングできず 英語できず DeepMindとOpenAIの人間の好みを反映した強化学習の論文を読む 「Deep reinforcement learning from human preferences」 [1706.03741] Deep reinforcement learning from human preferences 強化学習では報酬が明確でないと学…

DeepMindのグループ対戦型ゲームの強化学習の論文を読む

ランニングできず 英語できず (1) DeepMindのグループ対戦型ゲームの強化学習の論文を読む 「StarCraft II: A New Challenge for Reinforcement Learning」 StarCraft II: A New Challenge for Reinforcement Learning | DeepMind StarCraftゲームはグループ…

openPoseの解析結果の時系列データの作成作業

ランニング30分 英語できず (1) openPoseの解析結果の時系列データの作成作業 大学の研修でopenPoseによる予測モデルの構築をしている。現在はバスケットのフリースロー動作からの予測点数の推定モデル openPose資料 Open posedoc from Masato Nakai www.sli…

DeepMindの外部メモリー型DQNの論文を読む

ランニングできず 英語できず (1) DeepMindの外部メモリー型DQNの論文を読む 「Neural Episodic Memory](2017/03) https://arxiv.org/abs/1703.01988 この論文は人間がある状況で適切な行動を求められる場合、過去の類似した状況での結果を思いだして行動選…

強化学習を用いた画像の枠認識の論文を読む

ランニング30分 英語:movie Pappion (1) 強化学習を用いた画像の枠認識の論文を読む 「Learning Policy for Adaptive Tracking with Deep Feature Cascade」 [1708.02973v1] Learning Policies for Adaptive Tracking with Deep Feature Cascades 単なる画像…

分散表現した言葉を連結した知識ベース論文を読む

ランニングできず 英語できず (1) 言葉の分散表現と連結グラフの知識データベースの論文を読む。 「Thinking Fast, Thinking Slow! Combining Knowledge Graphs and Vector Spaces」https://arxiv.org/abs/1708.03310 これは言葉をword2vec等でベクトル化し…

動画の予測のPredNetの論文を読む

ランニングできず 英語できず (1) 動画の予測のPredNetの論文を再チャレンジする 以前少し読んだが数式が全く無く、何故動画予測ができるか記述もなく、公開コードを稼動できなかったので、NLPに方向を変えた覚えがある。 本論文の内容は下図で示される通り…

Jordanの深層とカーネルによる転移学習の論文を読む

ランニングできず 英語できず (1) Micheal Jordanが参加している転移学習の論文を読む。 「Learning Transferable Features with Deep Adaptation Networks」https://arxiv.org/abs/1502.02791 この人は有名なバスケットのJordanと同じ姓名なので、文書分類…

DeepLearning系の生成モデルのツールEdwardの論文を読む

ランニングできず 英語できず (1) DeepLearning系の生成モデルのツールEdwardの論文を読む。 「Deep Probabilistic Programming」 [1701.03757] Deep Probabilistic Programming 相当ハイレベルの人や知人から紹介されていたEdwardツールの論文である。 正直…

UCバークレィの特徴を理解して掴むロボットの論文を読む

ランニングできず 英語できず (1) UCバークレイの対象の特徴を理解して掴むロボットの論文を読む。 「End-to-End Learning of Semantic Grasping」 [1707.01932] End-to-End Learning of Semantic Grasping Abbeelが属するUCバークレィのロボットで、対象物…

DeepMindの実機ロボット学習の論文を読む

ランニングできず 英語:Toiec (1)windows VirtualBox Ubuntu pythonのモデル開発環境で躓いたことを記す。 VirtualBoxでwindowsのフォルダーを共有指定して、Ubuntuでマウントした場合、読み込みはできるが書き込みは「プロトコルエラー」でできない場合があ…

DeepMindの多重課題による劣化防止の論文を読む

ランニング30分 英語:Toiec (1)DeepMindのDeepLearningでの忘却抑止の論文を読む 「Overcoming catastrophic forgetting in neural networks」 ハザビスのサーベイ論文「Neuroscience Inspired AI」でDeepMindの成果として揚げられていたもの。人間は多数の…

DeepMindの幼児の視覚理解モデルの論文を纏める

テニス2時間 英語:できず (1) DeepMindの幼児の視覚理解の論文を読了する Early Visual Concept Learning with Unsupervised Deep Learning 知識が無い幼児が早期に外界に適応するのは、非教師モデルでしか行えないはずで、生成モデルで理解しているとの論…

DeepMindの幼児の早期理解の論文を読む

ランニングできず 英語:Move Starwars (1)DeepMindのハザビスが問題提起した、幼児が環境を急速に理解する謎についての論文を読む。 [1606.05579] Early Visual Concept Learning with Unsupervised Deep Learning 幼児は知識獲得前なので教師あり(ラベル…

好奇心を報酬とする理論

ランニング30分 英語できず (1) 好奇心を報酬とする論文を読了する [1705.05363] Curiosity-driven Exploration by Self-supervised Prediction 下図の様な迷路ゲーム(Viza-Doom)の場合、迷路の端に報酬があり(右端の図)、各場面では殆ど報酬を見ることが…

好奇心を本能的な報酬として解く論文

ランニングできず 英語:Toeic (1) 好奇心による強化学習の論文を読む。 「Curiosity-driven Exploaration by Self-Supervised Prediction」 明示的な報酬を外生的報酬(extrinsic reward)とし、好奇心を本能的な報酬(instrinsic reward)として区別して、明示…

DeepMindの方向性を纏める

テニススクール90分 英語:movie Fully (1)DeepMindのハザビスの「脳科学とAIの関連」の記事を纏める 「Neuroscience inspiered AI」 何故この様な記事が書いたのか理由の推察であるが、DQNやAlpha碁の偉大な事業を深層強化学習で達成したが、さらに複雑な事…

DeepMind AIの過去・現在・将来の概観記事を読む

ランニング30分 英語できず 引き続きDeepMindハザビスの「AIと脳神経学の関連」の記事を読む。 「Neuroscience-Inspired AI」 次の様なDeepMindが構想するAIを述べており、既に素晴らしい成果であるDQNやAlpha碁を超えて、さらに実用的で複雑な問題を解決あ…