逆強化学習の課題にPlen2を使う

学校の研究でPlen2を使った逆強化学習を企画しているが、初めてPlen2を使ってみた。このToyロボットはサーボモータでの稼動点が20点あり、ここに信号を送って逆強化学習の実証実験をする。このPlen2はArdinoが20個のモータを制御する仕掛けで現在8万円弱と…

2018-01-29

ガウス過程による逆強化学習の論文を読む

最大エントロフィの逆強化学習の性能はベイズより優れていることは実装してみて判明したが、下記の論文によるとガウス過程(Gaussian Process)を使った逆強化学習が傑出してよい性能を出している。 papers.nips.cc この論文の高速道路の実験例をみるとパトカ…

2018-01-24

ベイズによる逆強化学習をＣ言語で実装してみた

本郷で行われた強化学習アーキテクト(2018/01/16)は千葉大学Dの石川翔太さんのベイズによる逆強化学習であった。 https://www.slideshare.net/ShotaIshikawa2/ss-86214928 最大エントロフィ法の逆強化学習を実装して見て納得できなかった事は、熟練者の方策…

2018-01-13

UC.Berklayの協業強化学習の論文を読む

複数の自律体での強化学習は敵対的なモデルが一般的ですが、この論文は複数の自律体が協同で問題を達成するモデルの論文で、DeepMindと双璧を成すUC.Berklayの発表です。 https://people.eecs.berkeley.edu/~russell/papers/icml17ws-cirl. 「Efficent Coope…

2018-01-08

UC.Berkeleyの敵対的逆強化学習の論文を読む

Abbeel率いるUC.Berkeleyのロボット学者達が昨年初「GANとIRL」は同義だとする画期的な論文を示しましたが、この一派がまたこの論文に述べられたGAN-GCLを発展させたGANによるIRLの論文（Adversarial Inverse Reinforcement Learning:AIRL)を発表しました。 …