逆強化学習の深層学習版をC言語で実装してみた
年末にC言語でSGD(確率勾配法)で逆強化学習を実装したが、深層学習版でも実装してみました。
SGDと結果は殆ど変わりませんが、PRMLの5章にあるチューニング無しのロジックの深層学習なので相当時間がかかりました(約3分 SGD版の100倍)。
示せたことはChainerやTensorflowなしでも解けることですが、1990年ぐらいに既にSutton等が強化学習はニューロで解ける事を示していました。
この課題は簡単なので、複雑な報酬に対応する深層学習の効果が発揮できず、時間だけがかかる結果となっています。
ようやく3年越しで、Max Entropy Deep IRL method(2014)を理解することができました。