大脳基底核の躊躇機能を模擬した強化学習の論文を読む

強化学習

アルファGoを作ったDeepMindのハザビスは脳科学者として有名であったが、OISTの銅谷先生等は既に2000年に大脳基底核で観察される信号の状態が強化学習のベルマン方程式で表現できるとを示して、生理的な意味でも脳と強化学習は関連が注目されて来た。 globe.…

2018-12-22

ベイズによる複数エージェントの強化学習の論文を読んでみる

強化学習

最近は複数エージェントによる協調学習の理論や実験が著しい進展を遂げており、この方向で様々な研究成果が出現してくると思われる。しかし今回読んでみたベイズによる複数エージェントの強化学習の論文(BADモデル)はこの方向ではなく、カードゲームの様に参…

2018-12-18

高速道路での複数車の協調学習の論文を読む

強化学習

高速道路での協調学習として転移学習を使っている表題に引かれて論文を読んでみた。著者はドイツ南部のFreiburg大学の人々の様だ。 [1810.08515v1] Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in Highway Traff…

2018-12-15

反証的な複数エージェントの強化学習を読む

複数エージェントの強化学習の論文を読むと必ず参照される「反証的複数エージェントモデル」(Counterfactual Multi-Agent：COMA)の論文を読んでみた。 [1705.08926] Counterfactual Multi-Agent Policy Gradients 表題にある反証的(counterfactual)とは、複…

mabonki0725の日記

2018-12-01から1ヶ月間の記事一覧

大脳基底核の躊躇機能を模擬した強化学習の論文を読む

ベイズによる複数エージェントの強化学習の論文を読んでみる

高速道路での複数車の協調学習の論文を読む

反証的な複数エージェントの強化学習を読む