UCバークレィの特徴を理解して掴むロボットの論文を読む

ランニングできず　英語できず

(1) UCバークレイの対象の特徴を理解して掴むロボットの論文を読む。

「End-to-End Learning of Semantic Grasping」

Abbeelが属するUCバークレィのロボットで、対象物の特徴（種類、色）を理解して、箱の中から

指示通りに該当の物を掴む実機ロボットの論文である。計算機上の模擬環境で自ら考える計算機を目指すDeepMindと異なり、ここは実機による知的ロボットを目指している。

f:id:mabonki0725:20170810070538p:plain

このロボットのフレームワークは以下である。

・穴に棒を入れる様な困難な制御と異なって物を掴む制御なので、誤差が許容され制御は比較的簡単である。

・物体の種類を理解するモデル「Vertal Stream」と物体の位置を識別するモデル「dorsal Stream」に分離したシステムになっている。即ち複数の物体の位置を識別して（種類は問わない）、物体毎の種類を識別するパイプラインとなっている。

f:id:mabonki0725:20170810072050p:plain

　明るい緑が物体の位置を示している（dorsal Stream)

f:id:mabonki0725:20170810072159p:plain

異なる色で物体の種類を認識している（Ventral Stream)

上記の２モデルは何れもCNNの9層（16層）で実現している。

f:id:mabonki0725:20170810072413p:plain

物体の種類は16種類で、物体の個数は500程度である。

f:id:mabonki0725:20170810073412p:plain

この認識は以下の２方法を採っていて、後者が有効としている。

・箱毎に同じ種類を入れ、箱内のロボットカメラで各物体の写真を撮りラベリングする

・箱内には混合して物をいれ、各物体の写真を撮り、外部のラベル付画像データベースで訓練されたCNNモデルでラベリングする。

これらは、複数の実ロボットで並列にラベル学習するので、効率的であり過学習することはないとしている。

感想としては、現在ではCNNの画像認識モデルが安定しており、実ロボットで誤差が許容できる制御（今回では掴む）であれば、この様なシステムは可能であると思う。しかし箱の中の物体が多種多数でぎっしり詰まっている様な場合は、誤差のある制御では無理と考えられる。