DeepMindの「心の機械理論」Machine Theory to Mindの論文を読む

この論文は1978年に提唱された「心の理論」Theory to Mindでの人間が特有に持つ自己と他者の相違を理解する認識を深層モデルToMnet(Theory of Mind Network)で作ろうとしたものである。

Machine Theory of Mind | DeepMind

「心の理論」は次に詳しいが、幼児は他者と自分との区別が付かず、このテストで人間の発達段階がわかることになっている。

心の理論 - Wikipedia

このモデルは、強化学習を済ました多種のAgentが存在し、各エージェントの意図を学習するものなので、Meta-Learningとも云える。

具体的には、下図の様にToMnetは或る環境下でのAgentの行動履歴(a)を観察して、その好みのオブジェクト(c)を認識し、全く異なる環境(b)でのAgentの動きを予測(d)することができる。

f:id:mabonki0725:20180401210552p:plain

逆強化学習でも同じ環境しか行動予測ができないので、ToMnetの様なモデルは他に存在せず、驚くべき性能を持っている。

このモデルの目的は「心の論理」試験に合格するシニアなレベルの構築であり、実験結果は詳細に記述してあるが、モデル自体の記述は下図のToMnet(Theory of Mind Network)と称する深層学習モデルでの説明だけである。

f:id:mabonki0725:20180401210031p:plain

この図の手続きとしては

①ある環境下で２つの「埋め込み」でagentの内部を表現する

　past trajectories:或る環境下での行動履歴→char net→ $e_{char}$

　resent trajectory:直近の行動履歴+ $e_{char}$ →mental net→ $e_{mental}$

②新しい環境では、この２つの「埋め込み」とprediction netでagentの動きを予測する。

ここでagentの動きとして３つの特性を予測する。

　 $\hat{\pi}$ :次の行動

　 $\hat{c}$ :好みのオブジェクト

　 $\hat{SR}$ :予測経路の確率

ToMnetの「心の理論」の達成は下図の様な実験で示している。

ここでは誤信念課題としてサリーとアン課題を扱っている。

即ちagent(サリー)が誤信念を持っているかToMnet(アン)が判断できるか示した実験である。サリーがゴール（星印）に達した時、恣意的にゴールを動かす(a)。ゴールの移動が少ない場合にはサリーは間違いに気付くが、遠いとサリーは間違いに気付かないとアンが認識できれば正解である。(b)の方策変更量の計測ではToMnet(アン）は移動が近いと方策を変更すると予測しており、遠いと方策を変更しないと予測している。この実験でToMnetは他者の誤信念を理解するレベルに達しているとしている。

f:id:mabonki0725:20180401213325p:plain