逆強化学習の深層学習版をC言語で実装してみた

年末にC言語SGD(確率勾配法)で逆強化学習を実装したが、深層学習版でも実装してみました。

SGDと結果は殆ど変わりませんが、PRMLの5章にあるチューニング無しのロジックの深層学習なので相当時間がかかりました(約3分 SGD版の100倍)。

示せたことはChainerやTensorflowなしでも解けることですが、1990年ぐらいに既にSutton等が強化学習はニューロで解ける事を示していました。

この課題は簡単なので、複雑な報酬に対応する深層学習の効果が発揮できず、時間だけがかかる結果となっています。

ようやく3年越しで、Max Entropy Deep IRL method(2014)を理解することができました。

 https://arxiv.org/abs/1507.04888

f:id:mabonki0725:20180103153241p:plain