mabonki0725の日記

逆強化学習の深層学習版をC言語で実装してみた

確率・統計 AI論文ロボテックス

年末にC言語でSGD（確率勾配法）で逆強化学習を実装したが、深層学習版でも実装してみました。

SGDと結果は殆ど変わりませんが、PRMLの５章にあるチューニング無しのロジックの深層学習なので相当時間がかかりました（約３分　SGD版の100倍）。

示せたことはChainerやTensorflowなしでも解けることですが、1990年ぐらいに既にSutton等が強化学習はニューロで解ける事を示していました。

この課題は簡単なので、複雑な報酬に対応する深層学習の効果が発揮できず、時間だけがかかる結果となっています。

ようやく3年越しで、Max Entropy Deep IRL method(2014)を理解することができました。

https://arxiv.org/abs/1507.04888

f:id:mabonki0725:20180103153241p:plain