DeepMindの強化学習での歪んだ報酬の対処の論文を読む

テニススクール90分　英語できず

[1705.08417] Reinforcement Learning with a Corrupted Reward Channel

この論文は報酬が誤解釈や観測失敗やノイズがある場合の対処を論じたもので、かなり長文で数学よりの話である。数学的な理解は何れ行いたいが、ここでは自分なりの要約を述べたい。

次の動画は有名なボートレースゲームで誤った報酬を観測した例である。よく見ると一隻だけ異常な短絡ループで走行している。この船は下図の左端の報酬関数を掴んでおり、こここから逃れられない状態にある。

CoastRunners 7 - YouTube

f:id:mabonki0725:20170831120253p:plain

まず歪んだ報酬のマルコフ決定過程CRMDP（Corrupted Reward Marcov Dicision Process)を数学t的に定義している。

そしてCRMDPではNo-Free-Lunch定理を用いて強化学習には一般解が無い事を証明し、対象問題別にモデルを構築する必要を説いている。

そこで歪んだ報酬でも適正化できる２つの方法を提案している。

・ $decoupled RL$ ：様々な状態の報酬を観察して、多面的に解く方法

・ $Quantilisation$ ：粒子化

(1) $decoupled RL$ では下記のモデルでは様々な状態からデータが取得でき比較することができる。

・IRL(Inverse RL)：熟練者の行動データからの逆強化学習モデル

・LVFS(Learning Value Fron Stories)：人間の行動を真似るモデル

・SSRL(Sub-Supervised RL)：一部だけをAgentに教えるモデル

理論としては下図の様に状態の相違と報酬の相違を考慮してベイズで解けば真値が判明するというものである。

f:id:mabonki0725:20170831122547p:plain

(2) $Quantilisation$ は粒子化によって高い報酬を探すものである。

下図では $\delta$ 以上について細かくサンプリングして穴を見つけている。

f:id:mabonki0725:20170831201618p:plain

感想

$decoupled RL$ は、部分観察マルコフ決定過程POMDP(Partial Observed Marcov Process)で確立されている理論の応用である。自動車運転の例でみると様々な場所から部分的に観測された位置情報でも、観測にノイズがあり自動車の走行距離や移動方向にノイズがあっても正しく把握できる理論である。

また $Quantilisation$ 粒子化は、粒子フィルターとして自動運転に使われている。

しかも複合観測と粒子化は統合されてSLAMとして既に実用化されている。

今回の歪んだ報酬による強化学習の適性化は、自動運転技術を参考にした様に思える。