アルファ碁の勝因はGANモデルであること

テニス2時間 英語30分 Lesson33

(1) やはりAlpha碁の完勝は、強化学習での敵対的モデル(Adversarial Model)の有効性を証明したと思う。碁の様に天文学的な組合せでの最適化を可能にしたのは、対戦もAlpha碁とした事である。ロボッテクスの性能は、特徴量の選定とそのIRL(逆強化学習)の分配関数Z(θ)の精度で決まる。下記の論文では分配関数は敵対関係モデルで作成できることを示した。そう考えるとAlpha碁の勝因はIRL-GANとそっくりである。

https://arxiv.org/abs/1611.03852

・碁でのよい特徴量64個の抽出に成功した

棋譜モデル(SL)で熟練者のデータを集めた

・敵対的モデル(RL)を繰返し精度を高めた

ロボッテクスや自動運転でモデルを強化するには、敵対的なモデルで敵対的データを生成し、このデータでモデルを強化する。この相互的補完モデルが性能を左右すると思われる。