DeepMindのProgrammable Agentを読んだ

テニス90分　英語できず

(1) DeepMind Programmable Agentを読んだ

所謂zero-shot(未経験)の知識を獲得するモデルの話。UNREALの自然言語理解がone-shot(経験知識)なので、こちらは与えられたプログラムで状況を理解して、未知な状況を認識する。表題はこれを意味している。

学習する環境は下記の様なビリヤードの卓で中央に伸び縮みするロボットアームがあり、接触すると色と形が分る様になっている。

f:id:mabonki0725:20170712115043p:plain

これに下記の様なプログラムを与えると、

f:id:mabonki0725:20170712115528p:plain

f:id:mabonki0725:20170712115723p:plain

ロボットはアームを動かして正しいか探る。正解の場合の報酬によってロボットは下表の様な物体識別表を学習する

f:id:mabonki0725:20170712122136p:plain

上図は学習後の試験で、今まで学習していない物体の認識(Zero-shot)である。

②の場合は立方体と円柱の中間で認識している

③の場合、紫を赤、青、緑の中間で認識している

即ち表はロボットの物体認識の心情表現を表わしていると考えられる