2018-01-01から1ヶ月間の記事一覧

逆強化学習の課題にPlen2を使う

学校の研究でPlen2を使った逆強化学習を企画しているが、初めてPlen2を使ってみた。 このToyロボットはサーボモータでの稼動点が20点あり、ここに信号を送って逆強化学習の実証実験をする。 このPlen2はArdinoが20個のモータを制御する仕掛けで現在8万円弱と…

ガウス過程による逆強化学習の論文を読む

最大エントロフィの逆強化学習の性能はベイズより優れていることは実装してみて判明したが、下記の論文によるとガウス過程(Gaussian Process)を使った逆強化学習が傑出してよい性能を出している。 papers.nips.cc この論文の高速道路の実験例をみるとパトカ…

ベイズによる逆強化学習をC言語で実装してみた

本郷で行われた強化学習アーキテクト(2018/01/16)は千葉大学Dの石川翔太さんのベイズによる逆強化学習であった。 https://www.slideshare.net/ShotaIshikawa2/ss-86214928 最大エントロフィ法の逆強化学習を実装して見て納得できなかった事は、熟練者の方策…

UC.Berklayの協業強化学習の論文を読む

複数の自律体での強化学習は敵対的なモデルが一般的ですが、この論文は複数の自律体が協同で問題を達成するモデルの論文で、DeepMindと双璧を成すUC.Berklayの発表です。 https://people.eecs.berkeley.edu/~russell/papers/icml17ws-cirl. 「Efficent Coope…

UC.Berkeleyの敵対的逆強化学習の論文を読む

Abbeel率いるUC.Berkeleyのロボット学者達が昨年初「GANとIRL」は同義だとする画期的な論文を示しましたが、この一派がまたこの論文に述べられたGAN-GCLを発展させたGANによるIRLの論文(Adversarial Inverse Reinforcement Learning:AIRL)を発表しました。 …

逆強化学習の深層学習版をC言語で実装してみた

年末にC言語でSGD(確率勾配法)で逆強化学習を実装したが、深層学習版でも実装してみました。 SGDと結果は殆ど変わりませんが、PRMLの5章にあるチューニング無しのロジックの深層学習なので相当時間がかかりました(約3分 SGD版の100倍)。 示せたことはC…