ロボット学で学習手順を生成する論文を読む
ランニング30分 英語できず
(1) 米国のロボット学の権威Pieter Abbeelが参加した論文「Reverse Curriculm Generation for Reinforcement Learning」を読む。これは最終目的から初期状態へ逆に解く強化学習によって自動操縦手順を自動生成するモデルである。
[1707.05300] Reverse Curriculum Generation for Reinforcement Learning
DeepMindのUNREALの自然言語理解の論文を読むと、初歩的な理解から複雑な理解へ順に学習させると効果的である事が実験で確かめらているが、その手順は必ずしも明確になっていないので、この論文に興味を持つ。
(2)秋葉原で開催された「深層学習による自然言語の本」の勉強会に参加する。多分この手の本は勉強会に出ないと読むことはないだろうとの判断である。しかしRNNやLSTMの話だけなので興味を殺がれる。DeepLearingをどの様に利用するかは大事なテーマだが、DeepLearning自体は数学的には明確でないので退屈なだけである。
DeepMindの倉庫番ゲームの論文を纏める
ランニングできず 英語:Toeic
(1) DeepMindの倉庫番ゲームの論文「Imagination-Augmented Agent s for Deep Reiforcement Learning」がやっと読了した。難航した理由は以下である。
・重要な単語の意味の取り間違え
(Augmented →Argmented rollout→rollover unroll →unrole)
・model-freeについて記述が少ない
・同時期の論文「Learning model-based planning for scratch」との強い相関想定
やはり意味が取れない場合は丁寧に読む必要があることを学んだ。
凡その概要は掴んだと考える。
倉庫番の様なゲームでは、計画や方策が無いと荷物が通路を塞ぎ解けなくなる。この様なゲームのモデルでは計画を推定するのが必要である。
この論文のモデルはI2A(Imaginateion Augmented Agents)と云い、所謂DQNの拡張版であるA3Cの画面の特徴量から深層強化学習であるModel-freeに将来状況を予測するModel-basedでアシストするものである。Model-basedは将来の3から5先を予測するだけのImparfect Model(不完全モデル)であるが、これを補助としてModel-freeで解くと精度が向上するとの内容である。
問題は次の状況と報酬の予測ICモデルの構築であるが、これはModel-free(画面の深層RL)を使って多数データを生成しCNNによる逆強化学習(負の対数尤度)で方策を学習させている
DeepMindのI2Aモデルの倉庫番ゲームの論文を読む
ランニング30分 英語できず
(1) 学校の研修用に以前書いたOpenPoseの論文資料からアルゴリズムを1枚に纏める
(2) DeepMindの行動計画の論文「Imagination-Augmented Agents for Deep
Reinforcement Learning」(I2A)を引き続き読む。
このモデルの実験はSokoban(倉庫番)で指定のセルに荷物を押すだけで収納するゲームであるが、通路を荷物で塞いでしまうとデットロックになって失敗する。そのため前もって模擬が必要なモデルとなっている。
下記の場面は、I2Aが右側にある模擬の候補を生成して、最適な戦略を選択(最下段)している場面である。この様な事が可能なのは、このモデルがBellman方程式を模した多段階のCNNモデル(Enviroment Model)を複数生成しているからである。I2Aはこの多段階の結果をLSTMでエンコードしてModel-Basedとし
Model-Freeと統合したモデルとしている。Model-FreeはGameの内容に依存せず画面から直接学習するDQNを並列化したA3Cのモデルである。このモデルによって安定化が図られている。
Pythonで不芳情報の言葉のカウントをする
ランニングできず 英語できず
(1) 企業の自然言語の不芳情報分析を開始する。
$sudo apt-get install libmecab-dev user #mecabインストール
$sudo apt-get install mecab mecab-ipadic-utf8 #辞書のインストール
$pip install mecab-python3 #Pythonライブラィのインストール
すもももももももものうち
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
・Pythonで不芳情報の言葉の数をカウントする
mport pandas as pd
import MeCab
import sys
import collections
#不芳データの読込
df = pd.read_excel("~/yosin/special_info.csv")
dft = df.NLP #不芳情報の自然言語の列
#df = df.dropna()
print(dft)
noun_list = [] # 名詞のリスト
#データの件数毎の処理
for i in dft:
#Mecabの形態素解析の行毎の処理
for l in m.parse (i).splitlines():
if l != 'EOS' and l.split('\t')[3].split(',')[0] == '名詞': # 名詞のみ抽出
noun_list.append(l.split('\t')[0]) # 名詞の追加
noun_cnt = collections.Counter(noun_list) # 名詞毎の数を算出
# 名詞とその数の表示
for word, cnt in noun_cnt.items():
print(word, cnt)
・結果
資金繰り 20
債務超過 12
ショート 19
:
T研で数学の秀才の解説を聞き凹む
ランニングできず 英語できず
(1) DeepMindの「Imagination -Augemented Agents For Deep Reinforcement Learning 」を読みはじめる。
[1707.06203] Imagination-Augmented Agents for Deep Reinforcement Learning
これは同時に投稿されたModel-basedの行動計画の論文「Learning model-based planning from scratch」とは関係ない。
I2As(Imagination-Argumented Agentes)と称しており、下図の右端にある様にModel-basedとこれを蒸留したModel-freeを束ねた複雑なモデルである。この蒸留モデルを追加することによって解が安定すると言っている。
(2) T研の機械学習ゼミで数学の天才Iさんの下記の解説を聞く。
https://projecteuclid.org/euclid.aos/1382547511
T研の機械学習の研究室にはNIPSに投稿できる数学の秀才が数人おり、全くとんでもなく難しい話を聞くはめになる。無限次元のノンパラ回帰でWavletを組合わせこれに適切な重みを与えれば収束できるとの話であるが、プライヤーを任意にできる所がよく分らなかった。流石にレベルの壁にぶつかって凹んだ。
DeepMindの行動選択の論文を纏める
テニス2時間 英語30分 Toeic
(1) DeepMindの行動選択に模擬の選択を入れた論文「learning model-based plannning from scratch」を一応読了する。
この模擬モデルは既にAlpha碁のRLモデルで早碁モデルとして採用されていたので、今さらと思えるが、不確定な状況によって行動するか模擬するかの選択をする所は新しい。人間が状況によって本能的に動くか、考えてから動くかのモデルと看做すと分り易い。
このモデルは明示的なロス(燃料、母船からの距離)と暗示的なロス(模擬の連続回数)の合計を最小にする学習を各々RLとMLPとINとLSTMで行っている。
行動か模擬かの選択:RL
行動模擬ツリー評価:IN(Interaction network)
次の行動選択:MLP(Multi-layer perceptron)
行動模擬の記憶のエンコード:LSTM
このモデルには3モデルがあり、1ステップの行動模擬、nステップの行動模擬、行動模擬選択の総合評価ツリーがある。SpaceShipの実験から深く総合的に模擬した方がロスは少ない結果となっている。
また行動選択ツリーも複雑な分岐の方がロスが少ないことも示されている。
SpaceShipと簡単な迷路で実験をしており、論文の指摘通りもう少し複雑な状況設定での実験が望まれる。この後続のModel-Freeの論文「Imagination-Augment Agents for Deep Reinforcement Learning」が楽しみである。