ロボテックス

エネルギーベースの逆強化学習の論文を再読する

ランニングできず 英語できず (1) エネルギーベースの逆強化学習の論文を再読する 「Maximum Entropy Deep Inverse Reinforcement Learning」 https://arxiv.org/abs/1507.04888 T研のMゼミでかなり以前に解説した論文でしたが、敵対的な逆強化学習の提案で…

分散型DQNの論文を読む

ランニング30分 英語できず (1) 分散型DQNの論文を読む 「A Distributional Perspective on Reinforcement Learning」 https://arxiv.org/abs/1707.06887 この論文はDeepMindのDQNの派生モデルを統合したRainbowの中核を成すもので、DQNに初めて行動価値関数…

DeepMindのDQN統合版のRainBowの論文を読む

ランニング30分 英語できず (1) DeepMindのDQN統合版のRainBowの論文を読む 「Rainbow:Combining Imporvements in Deep Reinforcement Learning」https://arxiv.org/abs/1710.02298 2013年に発表されたDeepMind社のDQNの派生版を統合したRainbowの高パフォー…

Abbeelの対等な敵対的ロボットの論文を読む

ランニング30分 英語できず (1) Abbeelの対等な敵対的ロボットの論文を読む 「Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments」https://arxiv.org/abs/1710.03641 対等な敵対的モデルはOpen-AIの手作りのカリキュ…

安定的な動作を保持するTRPOの論文を読む

ランニングできず 英語:Toiec 30分 (1) 安定的な動作を保持するTRPOの論文を読む 「Trust Region Policy Optimization」https://arxiv.org/abs/1502.05477 この論文はロボットの強化学習で革新的な貢献をしたモデルです。UC Berkeleyのロボットチームの Shul…

一般化報酬による高次元の強化学習の論文を読む

ランニングできず 英語できず (1) 一般化報酬による高次元の強化学習の論文を読む 「High - Dimensional Continuous Control using Generated Advantage Estimation」 https://arxiv.org/abs/1506.02438 ゲームの強化学習ではQ-learningが一般的ですが、人間…

複数人が競争する環境での強化学習の論文を読む

ランニングできず 英語できず (1) 複数人が競争する環境での強化学習の論文を読む 「Emergent Complexity via Multi-Agent Competition」https://arxiv.org/abs/1710.03748 複数の学習者が競争する環境は設定し易い環境ですが、強化学習にとっては最も複雑な…

難易度が高いゴールを自動的に見つける強化学習

ランニング30分 英語できず (1) 難易度が高いゴールを自動的に見つける強化学習 「Automatic Goal Generation for Reinforcement Learning Agents」 https://arxiv.org/abs/1705.06366 この論文には米国のロボット学の権威 Abbeel が参加しています。このモ…

分散型・敵対的生成モデルを使った逆強化学習の論文を読む

ランニング30分 英語できず (1)分散型・敵対的生成モデルを使った逆強化学習の論文を読む 「OptionGAN:Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reiforement Larning」https://arxiv.org/abs/1709.06683 この論文は逆強…

強化学習に敵対する学習の論文を読む

ランニングできず 英語できず (1) 強化学習に敵対する学習の論文を読む https://arxiv.org/abs/1703.06748kore これはAttariゲームの強化学習(Q-learning A3C)を効果的に敵対(妨害)するモデルの論文です。 敵対的な戦略として次の方法を採っています。 ・効…

強化学習方程式の不確実性を報酬に取込む論文を読む

テニス2時間 英語できず (1) 強化学習方程式の不確実性を報酬に取込む論文を読む 「The Uncertaintry Bellman Equation and Exploration」 https://arxiv.org/abs/1709.05380 この論文は強化学習を解くBellman方程式の近似解での不確実性を見積りより精緻に…

プレイヤーと環境とが敵対的に学習する論文を読む

ランニングできず 英語できず (1) プレイヤーと環境とが敵対的に学習する論文を読む 「Learning to Design Games: Strategic Environments in Reinforcement Learning」 https://arxiv.org/abs/1707.01310v2 この論文は強化学習でプレイヤーと活動する環境と…

Abbeelの相手の様子を見る強化学習の論文を読む

ランニングできず 英語できず (1) Abbeelの相手の様子を見る強化学習の論文を読む 「Learning with Opponent-Learning Awareness」https://arxiv.org/abs/1709.04326 ロボット学の第一人者のAbbeelが参加している敵対的強化学習の論文です。この強化学習はタ…

人工生命環境で生存競争定理の再現の論文を読む

ランニング30分 英語できず (1) 人工生命環境で生存競争定理の再現の論文を読む [1709.04511] An Empirical Study of AI Population Dynamics with Million-agent Reinforcement Learning 自然界と同じ様に狩をする捕食動物(Predator)と獲物(prey)が存在し…

部分観測型の強化学習の文献を読む

ランニング30分 英語:Toeic (1) 部分観測型の強化学習の文献を読む 「確率ロボット 16章 POMDPの近似手法」※POMDP(Partially Observable Marcov Decision Process) この文献は下記のThrunの「Probabilistic Robotic」を千葉工大の上田隆一先生が訳したもので…

非深層型の進化戦略の強化学習の論文を読む

ランニング30分 英語できず (1) 非深層強化学習の進化戦略の論文を読む 「Evolution Strategies as a Scalable Alternative to Reinforcement Learning」 https://arxiv.org/abs/1703.03864 公開ソース https://github.com/MorvanZhou/Evolutionary-Algorith…

深層強化学習のサーベイ論文を読む

ランニングできず 英語できず 深層強化学習のサーベイ論文を読む 「DeepLearning for Video Game Playing」https://arxiv.org/abs/1708.07902 最近までのPCゲームやテレビゲームを深層学習で解くAI技術について網羅的に解説した論文である。従って深層学習を…

DeepMindの強化学習での歪んだ報酬の対処の論文を読む

テニススクール90分 英語できず DeepMindの強化学習での歪んだ報酬の対処の論文を読む [1705.08417] Reinforcement Learning with a Corrupted Reward Channel この論文は報酬が誤解釈や観測失敗やノイズがある場合の対処を論じたもので、かなり長文で数学よ…

Abbeelの計画問題の強化学習の論文を読む

ランニング30分 英語できず Abbeelの計画問題の強化学習の論文を読む 「Learning Generalized Reactive Plicies using Deep Neural Network」 https://arxiv.org/abs/1708.07280v1 ロボット学の第一人者USCバークレイのPieter Abbeelが参加している倉庫ゲー…

深層密度予測による擬似回数を報酬とした探索の論文を読む

ランニング30分 英語:Toeic 深層密度予測による擬似回数を報酬とした探索の論文を読む [1703.01310] Count-Based Exploration with Neural Density Models End-to-End(RealTimeで学習しながら問題を解く)のDQNは衝撃を与えたが、解けないゲームが多数ある…

深層強化学習で多次元の行動を分解して学習する論文を読む

ランニング30分 英語:Toeic 深層強化学習で多次元の行動を分解して学習する論文を読む 「Discrete Sequential Prediction of Continuous Action for Deep RL」 https://arxiv.org/abs/1705.05035 DQNでのQ-Learningが高次元のためSGDの深層学習が進まない問…

本能的に学習するロボット実験の論文を読む

ランニング30分 英語:できず (1) 本能的に学習するロボット実験の論文を読む 「Instrinstically Motivated Goal Exploaration Processes with Automatic Curriculum Learning」 https://arxiv.org/abs/1708.02190 今までの強化学習はゴール(目的)が明解で…

医療系の複合現実(MR)の技術サーベイ論文を読む

ランニング30分 英語:Toeic (1) 医療系の複合現実(MR)の技術サーベイ論文を読む 「Recent Developments and Future Challenges in Medical Mixed Reality」 https://arxiv.org/abs/1708.01225 AI会社の社長からこれは凄いという複合現実の論文を紹介された…

MicroSoftのゲームのアイテム毎に強化学習する論文を読む

テニス2時間 英語:できず (1) ゲームのアイテム毎に強化学習する論文を読む 「Hybrid Reward Architecher for Reinforcement Learning」https://arxiv.org/abs/1706.04208 (1.1) 論文の意図 DQNは画面からDNNで直接特徴量を読み取り、特徴量の変化と得点で…

DeepMindとOpenAIの人間の好みを反映した強化学習の論文を読む

ランニングできず 英語できず DeepMindとOpenAIの人間の好みを反映した強化学習の論文を読む 「Deep reinforcement learning from human preferences」 [1706.03741] Deep reinforcement learning from human preferences 強化学習では報酬が明確でないと学…

DeepMindのグループ対戦型ゲームの強化学習の論文を読む

ランニングできず 英語できず (1) DeepMindのグループ対戦型ゲームの強化学習の論文を読む 「StarCraft II: A New Challenge for Reinforcement Learning」 StarCraft II: A New Challenge for Reinforcement Learning | DeepMind StarCraftゲームはグループ…

DeepMindの外部メモリー型DQNの論文を読む

ランニングできず 英語できず (1) DeepMindの外部メモリー型DQNの論文を読む 「Neural Episodic Memory](2017/03) https://arxiv.org/abs/1703.01988 この論文は人間がある状況で適切な行動を求められる場合、過去の類似した状況での結果を思いだして行動選…

UCバークレィの特徴を理解して掴むロボットの論文を読む

ランニングできず 英語できず (1) UCバークレイの対象の特徴を理解して掴むロボットの論文を読む。 「End-to-End Learning of Semantic Grasping」 [1707.01932] End-to-End Learning of Semantic Grasping Abbeelが属するUCバークレィのロボットで、対象物…

DeepMindの実機ロボット学習の論文を読む

ランニングできず 英語:Toiec (1)windows VirtualBox Ubuntu pythonのモデル開発環境で躓いたことを記す。 VirtualBoxでwindowsのフォルダーを共有指定して、Ubuntuでマウントした場合、読み込みはできるが書き込みは「プロトコルエラー」でできない場合があ…

DeepMindの幼児の視覚理解モデルの論文を纏める

テニス2時間 英語:できず (1) DeepMindの幼児の視覚理解の論文を読了する Early Visual Concept Learning with Unsupervised Deep Learning 知識が無い幼児が早期に外界に適応するのは、非教師モデルでしか行えないはずで、生成モデルで理解しているとの論…