人工生命環境で生存競争定理の再現の論文を読む

ランニング30分 英語できず

(1) 人工生命環境で生存競争定理の再現の論文を読む

[1709.04511] An Empirical Study of AI Population Dynamics with Million-agent Reinforcement Learning

 自然界と同じ様に狩をする捕食動物(Predator)と獲物(prey)が存在して、これらは集団行動する知識があり、捕食を学習をする人工生命の環境を作った場合、どの様な挙動を示すか観察したモデルです。

 既に自然界の捕食動物と獲物の関係は下記のLatka-Volterra定理があるこが知られています。

 1)獲物は捕食動物によって減少していく

 2)獲物が減少すると捕食動物も飢えで減少する

 3)捕食動物が減少すると獲物は増加する→1)に戻る

 Wikipediaのページロトカ・ヴォルテラの方程式 - Wikipedia には下図があって上記のサイクルを示しています。

f:id:mabonki0725:20170916205550p:plain

 今回の人工生命環境では下記のモデルを作った場合、このLatka-Volterra定理が再現でき、自然と同じ人工生命環境が構築できたとしています。

(1.1)手法

 人工生命環境の仕様

 ・1万個の捕食動物と5000個の獲物の人工生命の環境を作る

 ・1000×1000のセルの環境内を人工生命は動く

 ・各人工生命はQ-Learningで報酬として最大に食料を得る様に学習する

   捕食者:共同や単独で狩で学習する(共同が大きい方が有利)

   獲物:森を見つけて食料を得る

  但し

           \epsilon-greedy率は0.1とする

   人工生命の行動「移動(左右上下)・群れに入る・群れから離れる・留まる」

           人工生命の視野のセルは限定的

 ・各人工生命の学習成果は速やかに下記の方法で伝達できる。

  システム的には学習成果を外部Bufferにを貯め、各人工生命は

  ランダムにこの学習成果を取り入れる

 ・各人工生命には0 \sim 1の生命バロメータがあり0.001毎に衰える

 ・人工生命は繁殖率は0.006 または 0.01とする

 ・自然環境の7公理を示して、上記の仕様で7公理を達成しているか検討しています。

  (前向反応、後向反応、個人特性、冗長性、閾値限界、共同特性、利己主義)

 

  下図は上記の人工生命の環境を表したものです。

  黒線:各捕食動物は観察Obsと固有パラメータID)をQ学習に入れます

  桃線:Q学習は予想される報酬を各捕食動物に返し、最適な行動を取ります

  水色:行動した結果は外部メモリーにある経験Bufferに蓄積されます

     この情報でQ学習のパラメータを更新します

f:id:mabonki0725:20170916212106p:plain

(1.2) 結果

 下図の様にLatka-Volterra定理が再現できています。

青色:捕食動物 黄色:獲物の推移(上段:時系列 下段:Latka-Volterra定理の解)

左図は生殖率を0.006の場合、右図は生殖率を0.01とした場合です。 f:id:mabonki0725:20170916212429p:plain

(1.3) 感想 

 ・強化学習で初めて群れ内の真似で学習するモデルになっています。

  これは共同体の学習効率化を実現したものです。

 ・Latka-Volterra定理を再現できたのは、一万固体以上の人工生命を強化学習できる環境を構築できたからで、深層学習と計算機の性能向上の寄与が大きいです。

 ・この環境では協業の知識を組み込んでいますが、単独行動のモデルでもLatka-Volterra定理は再現できたと思います。

 ・この模擬で集団は大きい方が生存しやすいとの結果は精緻なモデルを示していると思われます。

 ・捕食動物の協業知識の獲得のロジックが強化学習任せになっていて明瞭でないのは残念です。