迷路探索ゲームの論文を読み始める

ランニング30分  英語20分

(1)3D上の特徴量の解析のため、3D-SLAMとしてLDS-SLAMのインストールを試みる。下記サイトに詳細な方法が記述されている。このサイトではUbuntu14 ROS:Indigoとなっている。

趣味なし奴のメモ帳: LSD-SLAMをROSで試す1-インストールとビルドとクイックスタート-

現在のNVEDIAが入っているDeepLearning用のPCはUbuntu16 ROS:kineticなので、やはりMakeでエラーになる。ノートPCにはUbuntu14 ROS:Indigoなのでこちらで試して見るつもり。

(2)懸案だった迷路探索ゲームモデルDeepMindのUnrealの論文を読み始める。

Unrealとは以下の略

UNsupervised REinforcement Auxiliary Learning(補助学習による非教師型強化学習)

f:id:mabonki0725:20170620085353p:plain

以下は三好さんの実装サイトである。

GitHub - miyosuda/unreal: Reinforcement learning with unsupervised auxiliary tasks

こちららは3次元迷路の問題で画面から直接特徴量を抽出するDQNでは達成できないので、様々な工夫をしている。過去の場面の記憶で予測する所が新規である

 

モデルの構成図

A3C: 並列処理型ニューロでパラメータのブースティングをしている

Pixel Contorol :場面の切替わりの予測モデル(別画面になる方が好ましい)

Value Function Replay:保存した経路選択結果から場面の価値を予測

Reward Prediction:過去の3場面から次の場面の報酬を予測

f:id:mabonki0725:20170620084013p:plain