2017-12-01から1ヶ月間の記事一覧

逆強化学習をC言語で実装してみた

(1) 逆強化学習をC言語で実装してみた計算機どうしが互いに強化するモデル（敵対モデル）を構成するには、単独での初期学習が充実していないと実現しないのは、アルファー碁やbonanzaの示す所と考えています。そこで敵対モデルを一般的に拡張した場合での…

(1) 不完全情報下のRegret最小化の拡張これはボーカゲームの様に相手の手札が見えない場合の最適選択するモデルです。このモデルはビジネスや部分的観察時の自動運転に応用でれば相当な威力を持つはずですが、この分野に詳しいDeNAのゲーム部門の人に聞い…