Googleロボットチームの強化学習のサーベイ記事を読む

arxivで月間2000本ぐらい投稿されるAI論文に圧倒されるが、Benny Britzには優良な深層学習や強化学習な論文をリストにしてもらい大変助かっている。Benny Britzが強化学習を否定的に書いている記事を紹介しているので興味をもったので読んでみた。

www.alexirpan.com

この記事は論文ではなく口語調の英語で書かれているので、解釈に迷う所が多かったが著者の強化学習の仕事を通じて、様々な例を揚げて、この分野が平坦でなく数々の問題があり、この原因の追究している。さらに今後の進路まで言及していて、殆どサーベイ論文の様になっている。

(1)簡単な自律動作に数万回の試行が必要

　もし綺麗に動作する動画があっても、これは血の滲む結果であって、自分のGoogleロボットチームの強化学習モデルの実績では30％以上は失敗すると述べている。強化学習について次の様な疑問を投げかけている。

　Atariゲームで人だと数分で到達できるレベルに、DQNの発展型Rainbowでも18万回の試行回数を要し約83時間ぐらいかかる。

f:id:mabonki0725:20180223172916p:plain

　　モデルフリーのDQN型は報酬の多寡のみで反応しているので無駄が多い為で、将来の経路を織り込んだMCTS（モンテカルロツリー探索）が必要としている。アルファ碁、アルファゼロはこの方式を採用しいる。

(2)複雑な自律操作は強化学習以外でもできる

　次の動画のBostonRobotic社のロボットは強化学習を使わずLQRモデルだけで精密に動作している。

youtu.be

　　LQRは現代制御理論ハミルトン・ヤコブ法で逆軌道問題を解く手法。即ち現在の状態から目的の状態への最適経路を目的の状態から逆算して解く手法である。

(3)強化学習が報酬関数の良否でモデルの性能が決まる

　　有名な報酬設定失敗で短絡的に回るボート

　　　　 f:id:mabonki0725:20180223174510p:plain

　一方で報酬関数の設計が困難でかつ複雑になっている事を指摘している。

　複雑な自律動作は複雑な報酬設計が必要の例

f:id:mabonki0725:20180223183811p:plain

しかし適切な報酬関数の設計方法には殆ど言及していない。多分この著者は強化学習の実践寄りよりも文献派とも考えられる。

(4)報酬だけで決定される強化学習には次の大きな問題がある。　

　・局所解に一旦入ればそこから逃れ難い

　　ひっくり返ったまま走るチータの動画

f:id:mabonki0725:20180223173538p:plain

　・逆に局所解を逃れるため、拘束を緩めると最適解から逸脱してしまう

　　敵対的モデルで同じ条件だと、互いに牽制し合って動かない。条件を少し変えると直ぐ相手を殺して学習できない。　　

　　 f:id:mabonki0725:20180223174214p:plain

(5)ハイパーパラメータの設定によって結果が異なる

　　下図ではハイパーパラメータの初期値の設定により約３割は失敗している

f:id:mabonki0725:20180223173408p:plain

(6)様々な強化学習の問題を見てきて最近の提案として以下を述べている

　・AutoMLの様な強化学習の実験センターの利用

　　巨大な計算資源を共通に使いあって、皆がそこで実験した強化学習の学習サンプルを共有しあう。　

　・OpenAIのDota2の様なゲーム用な整備されたBotでAgentを訓練して、次第に強くする工夫で適切な強化学習モデルを構築する。

https://blog.openai.com/dota-2/

f:id:mabonki0725:20180223220100p:plain

　　　　　　　　　 Dota2の画面

　・アルファ碁、アルファ碁ゼロで敵対的強化学習の有効性が実証された。Dota2は自己対戦型も訓練できるので、敵対的強化学習を試せる可能性がある。

　・Dota2の環境で行動と結果の直接的な関係と早いフィードバックにより効果的な報酬設計を学ぶ。

(7)結論として以下の提言をしている。

　・学者は自己の専門分野を憎む必要がると云われている様に、強化学習を他の分野への応用することで、良い知見が得られう可能性がある。

　・性能向上があれば局所解なんて別に気にしなくてよい

　・やはりハードの性能の向上は早く成果を評価できるので無視できない

　・報酬以外にも知見を加えた方がよい

　・特化したモデルは解空間を狭めて学習できる

　・強化学習では質のよい初期学習は性能に寄与する

　・報酬関数の最適な近似は機械学習の理論が使える

　・転移学習は次の強化学習の知見に生かせる

　・最後に困難な環境がいつも難しいとは限らない

(8)感想

　実際の現実の自律的なロボットに強化学習を適用するには様々な問題があると思っている。

　・報酬設計

　・最適方策の設定

　・摩擦や誤差の問題

　・部分観測での信頼度　

　報酬設計では逆強化学習に殆ど言及していないことに衝撃を受けた。ここではDota2の様な実験アプリを使って繰返し報酬設計をする事を推奨している。

　アルファ碁やアルファゼロによる敵対学習の可能性が実証されたので、この面でDota2の自己対戦学習の環境はかなり有望である。

　最も衝撃だったことはボストン・ロボテック社のロボットがLQRで構成されていることである。多分GoogleはLQRモデルの限界を知ったからソフトバンクに売ったと思われる。やはりババを掴まされた感が強い。

　この著者の師匠のAbbeel達は現実のロボットを扱うので、LQRだけでなく深層機械学習と統合したGPSを提案している。以下はAbbeel達のGPSモデルの纏め

End to end training with deep visiomotor from Masato Nakai