2017-07-18

Lie群上のNeural Turing Machineの論文を読み始める

ランニング30分　英語:StarWars

(1)DeepMindのNeural Turing Machine(NTM)が何故旨くいくかについてLie群上で理論解明したハーバード大学のLie-Access Neural Turing Machine を読み始める。

これはT研のM先生の解説で知った論文である。Neural Turing MachineはLSTMに外部記憶を使う事によって、複雑な規則の文字列を生成することが可能である。これは後のDNC(Differencial Neural Computer)に応用され、質疑応答などの高度な推定が可能になった。

DeepMindのNTMではLieという言葉が１回しか出現しないが、本論文の見解は以下である。

複雑な記憶を外部記憶に残す場合でも、外部記憶のアクセス針(Head)は微分可能なNeuroの重みの分布なので、HeadはLie群上の多様体を形成し、外部記憶はLie群多様体上で簡単な構造で書き込まれる。一見複雑な記憶パターンはLie群上からは単純なパターンとして読出しできるとの見解である。

2017-07-17

OpenPoseの時系列解析資料を作成し始める

確率・統計

テニス30分　英語できず

(1)大学の研修として OpenPoseで撮った骨格の時系列解析資料と擬似データを作成し始める。テーマはスポーツの動きを時系列で解析して、その熟達度レベルを判別するモデルとする。まずはLSTM用とHMM用のデータの擬似データPADOCツールで作成した。

f:id:mabonki0725:20170717140053p:plain

f:id:mabonki0725:20170717184122p:plain

f:id:mabonki0725:20170717184214p:plain

f:id:mabonki0725:20170717184302p:plain

2017-07-16

DeepMindの多様な環境で順番学習の有用性の論文

AI論文ロボテックス

ランニング30分　英語できず

(1) DeepMindの論文「多様な環境での身体特性の出現」を読む。

　表題：Emagency of Locomotion Beheviors in Rich Enviroments

https://arxiv.org/abs/1707.02286

動画：

www.youtube.com

これは、GANによる強化学習「Learning human behaviors from motion capture by adversarial imitation」の続編である。

GANによるデータ生成では旨く行かない場合があったので、この論文になっていると思われる。即ち一般に強化学習は様々な状況で正しい報酬を与えるのが難しいので、GANでデータを多数生成をして最適な報酬を計算したが、旨く行かず、逆に様々な状況を作ってやって順番に適応学習する方が効率がいい事を示したものである。

ここでは以下の３の主な考え方を導入している。

　1) カリキュラムの導入

　　UNREALの自然言語と同様に簡単な問題から高難易度の課題で学習させる　

　2) A3cの導入

　　UNREALと同様に並列型ブースティングを採用、即ち複数人の挙動をブースティングする

　3) Trust Rigion Policyの改良版のDPPO(Distributed Proximal Policy Optimization)アルゴリズムの採用

　　・PPOアルゴリズムの開発

　　　Trust Region Policyは方策関数の微分による改善で下記の制限を入れた

Trust Region Policyでの制限 ${KL \left( \frac{\pi_{\theta_{old}}} { \pi_\theta} \right) \lt \delta}$ を以下に改良

　　　if ${KL \left( \frac{\pi_{\theta_{old}}} { \pi_\theta} \right) \gt \beta_{high}KL_{target}}$ then

　　　　　 ${\lambda \leftarrow \alpha \cdot \lambda}$

　　　if ${KL \left( \frac{\pi_{\theta_{old}}} { \pi_\theta} \right) \lt \beta_{low}KL_{target}}$ then

　　　　　 ${\lambda \leftarrow \alpha / \lambda}$

　　　 ${\mathcal{J}_{pro}(\theta) = \sum_{t=1}^{T} \frac{\pi_\theta(a_t|s_t)}{\pi_{old}(a_t|s_t)} A_t - \lambda \cdot KL\left(\frac{\pi_{old}}{\pi}\right)}$