DeepMindとOpenAIの人間の好みを反映した強化学習の論文を読む

ランニングできず 英語できず

DeepMindとOpenAIの人間の好みを反映した強化学習の論文を読む

「Deep reinforcement learning from human preferences」

[1706.03741] Deep reinforcement learning from human preferences

強化学習では報酬が明確でないと学習できるモデルにはならない。一方で報酬が明瞭でない問題は多い。例えば紆余曲折して最後にゴールに達する様な問題などがそうである。その点では人間は経験や感を有しており、この様な報酬が曖昧な問題で人間の知識が強化学習に役に立つか検証する論文である。

人間の知識を強化学習に組み込む方法として逆強化学習(IRL:Inverse Reinforcement)がある。これは熟達者の経路データから逆に報酬を計算する手法である。しかしIRLの方式は貴重な熟練者のデータだけでなく多様なデータがないと適切な報酬が計算できないことが判明している。

そこで多数の人間に比較が容易な様にゲーム場面のビデオを2本づつ見せて、彼らの好悪を報酬に変換する案がこの論文の意図である。

f:id:mabonki0725:20170819104005p:plain

・報酬の推定方法

行動の経路(観察o_iと行動a_i)を撮ったビデオを2本づつ見せ、その好悪を得る。

    \sigma^1 \succ \sigma^2  左式は経路\sigma^1\sigma^2の優劣を示す

  \sigma^1=(o_0^1,a_0^1),\dots,(o_{k-1}^1,a_{k-1}^1)

  \sigma^2=(o_0^2,a_0^1),\dots,(o_{k-1}^2,a_{k-1}^2)  

収集したデータから経路選択確率求まる。これに次式のsoftmax関数を当てはめる。

   \hat{P}(\sigma^1 \succ \sigma^2) = \frac{\exp \sum_t \hat{r}(o_t^1,a_t^1)}{\exp \sum_t \hat{r}(o_t^1,a_t^1) + \exp \sum_t \hat{r}(o_t^2,a_t^2)}

 この式をBradley-Terry方程で解くと全ての経路報酬\sum_t \hat{r}(o_t,a_t)を逆算することができる。この計算は繰返し演算が必要になる。

注)Bradley-Terry方程式の解法についは下記の論文に詳しい

http://db-event.jpn.org/deim2017/papers/209.pdf

 

・予想報酬の計算手順

1) まず適当な報酬で複数の経路\sigma_1,\dots,\sigma_kを計算する

2) 複数の人間に経路のビデオを見せ、経路の好悪 を問い合わせる。

3) Bradley-Terry方程式を解き、全経路の報酬\hat{r}を計算する。

4) 1)に戻って繰り返し、報酬\hat{r}が安定するまで繰返す

 

・実験結果

 実験は8種類のロボットの模擬とAtariゲームで行った。

人間に対する問い合わせは以下の2種類を実施している

①事前にビデオを見せて経路の選択の問合せ(紫色)

②ゲーム中にOn-lineで人間に指示を仰ぐ(青色)

比較のため、モデルに報酬関数を設定した場合(橙色)を乗せている

 ・ロボットの模擬の結果

f:id:mabonki0725:20170819114524p:plain

 

f:id:mabonki0725:20170819120717p:plain

 

 Atariゲームの結果の結果

f:id:mabonki0725:20170819114709p:plain

 ロボット環境では人間の経路選択が有効であることがしめされている。特にOn-lineの指示が優勢である。Atariはスコアが明瞭なゲームなので、既存のDQNモデルが有効であることが示されている。