高速道路での複数車の協調学習の論文を読む
高速道路での協調学習として転移学習を使っている表題に引かれて論文を読んでみた。
著者はドイツ南部のFreiburg大学の人々の様だ。
これは高速道路で複数車が協調して走行する学習として、転移学習と複数エージェントの強化学習の比較に見えるが、以下の事をしている。何れも報酬は協調して安全範囲を保持して車のスピードが高ければ報酬が高い。
ここで注意すべきは本論文で云う転移学習は単一エージェントの学習結果であるパラメータを他のエージェントに複写していることで、一般的な転移学習では無い。
一般に転移学習は、データの特徴は似ているが分布状態が異なる領域への学習を言う。
(1)転移学習と云っているモデル(ANNcore)
複数車の存在を環境の一部として単独エージェントの強化学習を行う。このパラメータを結果を全ての車に反映させる。
(2) 複数エージェントの強化学習モデル(ANNshare)
中央制御型で協調学習させ、このパラメータを全車に配分する。
両学習モデルもDQNを使っており、一般的な転移学習でも無いし、非中央制御型の複数エージェントの強化学習でも無く新規性が乏しい。
実験ではMITの高速道路での強化学習用のプラットフォームを用意している。
(1) 転移学習と称している学習
下図の左の様に他車を環境の一部として白い範囲を保ちながら速度を上げる様に単独で学習する。このモデルをANNcoreと云い学習結果のパラメータを右図の様に複写して、見かけ上互いに牽制し合うモデルとなっている。
(2) 複数エージェントの強化学習
協調する車どうしが連携を採って白いセルの範囲を保ちながら速度を上げる様に中央制御型で強化学習をするモデル(ANNshareと云う)である。各車の状態と報酬とで各車の状態が最適になる様に協調行動させているが、この学習結果のパラメータも下図の様に複写して各車が独自で動作させ、折角学習した中央制御型の協調行動を成り立たなくしている。
・MITの模擬環境での実験結果
この強化学習には状態や行動以外に18個のハイパーパラメータを使っており下図の様にハイパーパラメータはすぐ収束状況になっている。
下図は協調する車の数と速度の関係である。2台では速度が落ちているが両モデルとも不思議なことに車が増えると速度が漸増している。
論文にも記述されているが、単独で学習した結果を各車に複写した転移学習モデルと複数エージェントで協調学習した結果を各車に複写した結果は殆ど変わらない。
これによって分ることは、単独で学習した結果を複写してもある程度協調行動が可能で、複数エージェントで協調学習した結果を複写すると、協調学習の効果を維持できなくなるという事と思われる。