読者です 読者をやめる 読者になる 読者になる

感情を強化学習(RL)でモデル化する論文を読む

ランニング30分 英語30分 Lesson24

 (1) 感情とロボテックスの論文を読む。

[1705.05172] Emotion in Reinforcement Learning Agents and Robots: A Survey

強化学習の「報酬と局面」認識を内部環境として下図のAとBの様にとらえ、選択の幅を拡張しようとする考え。

f:id:mabonki0725:20170520060602p:plain

RLのBellman方程式の意味するところは、局面毎の価値Qは将来の報酬の漸化式であるので、天文学的な組合わせの将来の全局面を推測する必要を意味している。

f:id:mabonki0725:20170520061546p:plain

この問題を解決したSuttonの偉大差は、局面を特徴量に分解し、価値Qを特徴量の線形回帰モデルとして一般に解けることを示したことである。即ち、価値Qが最適化するほど経路選択幅が縮まり、さらに価値Qが最適化しやすくなる収束モデルを考案したことにあり、これはAlpha碁に至っている。

残された問題は局面をどの様に特徴量として分解できるかの問題で、局面の捉え方が効率を左右するので、下記の様な好奇心が大事だとのサイトが出現する。この点は飯塚氏のDo2tleのマリオ報告で「できるだけレアーな局面になる様に選択」も同様と考えられる。この意味で上記論文で感情を局面選択でモデル化することは意義があるが、特徴量の分解を理論的に解く課題になっていないことが残念である。

pathak22.github.io

 (2) ラズパイ・マウスのWiFI設定で上田本の通り設定すると、OSが立ち上がらなくなり元に戻せなくなりデットロック状態になる。想定した問題なので、本日大学でUNIXに詳しい先生と相談する。