微細な手型実機ロボットでの強化学習の論文を読む

実機ロボットとしては歩行型ロボットや自律型操作ロボット(PR2)[1]があるが、今回の論文のロボットは微細な操作ができる手形のロボットの強化学習である。

[1808.00177] Learning Dexterous In-Hand Manipulation

       f:id:mabonki0725:20190425124105p:plain


この手形ロボットでは微細な操作で下図の様に立方体や角柱を回させて目的の面(E)を出す一連の動作で、物体を落とすことがなく連続して早く回転させる事を目指している。

f:id:mabonki0725:20190423073245p:plain

上図では各指にモーションキャプチャーを装着していおり、さらに中央のロボットの回りに状態監視のため16個のカメラと3個の高画質カメラを配置した下図の様な大型の装置になっている。

f:id:mabonki0725:20190425121817p:plain


この手形ロボットは「Shadow Dexterous Hand」の名称で人間の手と同じ操作ができる様に2005年に製造され販売されているが、余りにも制御が複雑で普及されていない。

本論文の目的は計算機上の手型ロボットのシュミレータで十分に強化学習の訓練を行い、この結果で実機の手型ロボットで目的の操作を試してみる事である。

シュミレータで訓練し実機で試す方法の長所と短所は以下である。

(A) シュミレータで訓練を行う長所

 1)実機では行えない程の訓練を繰返すことが可能である。

 2)特にLSTMを使った記憶型の強化学習モデルでは相当な学習データが必要になる。

(B)一方シュミレータの短所は以下である。

 1)計算機上の訓練成果は摩擦やモータ誤差や重力が無く、訓練成果が実機で適応できるか不明である。

 2)この「Shadow Dexlerous Hand」では接触や圧力を感知するセンサーが付いているがシュミレーションではこのデータが生かせない。

 

本論文では短所の1)に対して、シュミレーション上で様々な摂動を与えて訓練することで、学習には時間が懸かるが現実でのギャップを対処しようとしている。しかし短所の2)の触覚データの無視して観察だけでの学習は、人間が鉛筆やハンドル操作の学習の殆どに触覚に頼っている事を考えると、本論文での学習は致命的な欠陥を有していることが分る。

シュミレータでは意図した訓練が繰返しできるが、このシュミレータには触覚や嗅覚の様なセンサー情報が反映できず、意図した以外の訓練も不可能である。

 

(1)手法

この手型の学習は、実機での転移を考慮して摂動を与えたシュミレータ上で以下の強化学習を採用している。

実機で様々な影響を考えた訓練は数年かかるが、この摂動を入れるシュミレーションによって数時間で訓練できるとしている。

  f:id:mabonki0725:20190425132638p:plain

 1) 学習アルゴリズム: 

  ・PPO (Proximal Policy Optimization)   方策と価値で2種類の深層学習を使用

   (Table 2では各々の深層学習に異なる特徴量を設定している)

  ・様々な摂動を与えたシュミレーションでは384個のPPOで並列学習している

  ・価値の学習では記憶としてLSTMを導入

    2)報酬r_t

  ・最適な角度と実際の角度との相違d_tを11の区分で離散化して、報酬は回転後の改善角度との差とする。

   (但し最適な角度とは何を示すか論文では不明である)

         時刻tでの報酬 r_t=d_t - d_{t+1} 

           ゴールに達する(目的の面に至る)と+5の報酬で、

           物体を落とすと-20の罰則がある。

   3)状態認識方法

   ・非視覚認識:指に装着したモーションキャプチャーやセンサーによる状態認識

   ・視覚認識:複数のカメラの画像をCNNで特徴量化した状態認識

 4)シュミレーション上のパラメータに与える摂動

  ・観察誤差 

  ・モデルで把握できない誤差 

  ・視覚パラメータ誤差

  ・物理パラメータ誤差(重力反映も含む)

 5)深層学習にに投入する特徴量  

  f:id:mabonki0725:20190425130502p:plain

 (2)結果

  実験結果とし定性的と定量的で検討している

 1) 定性的な検討

  この実験では強化学習で人間の細かい指の動きを再現できたとするが、次の相違が見られたとしている。

  ・人間に比べ小指を多用している傾向がある。

   これは小指が端にあるので自由度が大きいからとしている。

  ・下図の様に人間は指先を使うが、指先に力が入らない幼児と同じ様に実機では水色の部分を使って回転させる事が多いとある

  ・リストに衝撃が当たる場合があるので、リストを固定する方策は実機でもうまく行った(下表の3行目 locked wristに該当する)

  ・物体を落とすのは最初が多い。またフリーズする場合もある。

       f:id:mabonki0725:20190425145604p:plain

 2)定量的な検討

 定量的な評価として、物体を回転させて物体が落ちるか時間切れまでの物体の連続回転数を指標に使っている。

 上段はシミュレーションで100回試行し、下段は実機での10回の試行での実績である。

 Block(state)は立方体のセンサーによる状態観察で、Block(vision)は視覚での状態認識での実験である。Ocagonal Prizmは八角注での回転である。

 実機での連続回転は少ないが、シュミレーションでの学習成果が実機でも生かせている事が分かる。

   また視覚による状態認識は視覚誤差によって劣化している。
f:id:mabonki0725:20190425140030p:plain

 次の実験はシュミレーション上で様々な摂動を入れた訓練の場合と、摂動を除いて訓練した場合の比較である。

これによると摂動を除くと性能が劣化している事が明瞭で、シュミレーションで摂動を入れた訓練が効果的である事が分かる。

f:id:mabonki0725:20190425140225p:plain

 次の実験は記憶を反映したLSTMを使うモデルの優位性を示したものである。FFはFeed Fowardモデルを示す。過去のトレンドを反映した訓練の優位性が分かる。

f:id:mabonki0725:20190425140333p:plain

 下記の結果はシュミレーション環境 UnityとMujoCo及び実像を使った実機での誤差を示したものである。実像では観測誤差があるので劣化しておりUnity上の訓練が優れてる事を示している。

f:id:mabonki0725:20190425140433p:plain

(3) 感想
 本論文は以下の有効性を示したものである。
 ①シュミレーション上の訓練は莫大な試行回数を行えるので効果的である。

  特に大量のデータを要するLSTMには有効と思われる。
 ②シュミレーションと実機との環境の相違はシュミレーション上で摂動を与えることである程度解消できる。

 ③しかし指に圧力がかかる触覚等がシュミレーションでは反映できず限界が明瞭である。

  この点については実際の触覚センサーと状態データとの相関が得られれば或る程度反映が可能と考えられる。

 

 [1][1504.00702] End-to-End Training of Deep Visuomotor Policies