深層強化学習で多次元の行動を分解して学習する論文を読む

ランニング30分　英語：Toeic

「Discrete Sequential Prediction of Continuous Action for Deep RL」

DQNでのQ-Learningが高次元のためSGDの深層学習が進まない問題がある。一般的には状態 $s$ が高次元なのだが本論文は高次元な行動 $a$ 即ち複雑な行動ができる場合の問題を扱っている。

複雑な行動の場面とは下記の様に多節点あるロボテックスの学習がある。

f:id:mabonki0725:20170825084156p:plain

例えば２Dの行動でも下図の様に報酬に２頂点あり一方が局所解になっている場合、一方から逃れられない場合がある。

f:id:mabonki0725:20170825083205p:plain

そこで多次元の行動を分解して解こうするモデルである。

手法としてはQ-Learningする深層学習の最上段に複数のノードを置き複数の解を得る。下図では１次元毎に32のノードに分割してその最大値の行動を状態に反映し順番に解いている。

f:id:mabonki0725:20170825090547p:plain

実験結果では本モデルSDQNが他のモデルDDPGやNAFに比べ高い報酬を得ている。ここでuniform(一様分布)やlocal(正規分布）とあるのは上図の右上にある価値関数のノイズを示す。

f:id:mabonki0725:20170825091153p:plain

高次元のロボットの問題を解くには有効な方法と考えられる。