視覚的な転移学習による強化学習の論文を読む

国際大会での発表の準備で疲弊しているが、「もくどく会」があったので途中まで読んでいたATARIゲームの転移学習による強化学習を読む

[1809.00397v1] Visual Transfer between Atari Games using Competitive Reinforcement Learning

この論文はATARIゲームの同じ様な画面の操作で別のゲームで転移学習できないかという話。具体的にはピンポンをブロック崩しに転移学習をした結果の報告

f:id:mabonki0725:20181007191235p:plain

(1) 方法

ここでは両ゲームの抽象化と方向を合わせる前処理を行って特徴量を掴みやすくしている。

この論文では伝統的な転移学習(stage1)と転移のマッピング(stage2)による2方法で結果を比べている。

伝統的な転移学習stage1はCNN層の上位から2層目をピンポンから取り出しブロック崩しのCNN層に入れる方法である。この方法と同様の転移学習には前の記事を思いだした。

mabonki0725.hatenablog.com

(2)実験

Stage2のマッピングによる方法はマッピング関数GをGANで訓練する方法を採っている。即ちピンポンの画面からブロック崩しの画面を擬似生成して本物らしくなる様に訓練している。この場合画面の抽象化にVAEを用いているとある。

この論文のタイトル競合的(conpetitive)とは、Stage2で本物のブロック崩しの訓練(Naive)とピンポンのマッピングによる訓練(Visual Mapper)を様々な比率で混ぜた訓練を並列型強化学習A3Cで行っている。

f:id:mabonki0725:20181007193120p:plain

(3) 結果

・伝統的な転移学習stage1ではピンポンでの訓練した上位から2番目層を入れた方が最初から訓練するより良い当然の結果になっている。

f:id:mabonki0725:20181007193513p:plain

・Stage2のマッピングを用いた競合的転移学習の結果

左上のN:MはNaiveとVisual Mappingの比率

Naiveを多めにした方が良い結果で転移学習が多いと標準より劣化する。これはデータ分析全般に言えることだが、多少のバリアンスは精度を向上させる事は経験的に確かである。飛躍し過ぎかもしれないが、多民族国家でない日本は皆同じ事を考えるので、アイデアが洗練されず凋落している理由と同じかもしれない。

f:id:mabonki0725:20181007193913p:plain