交通事故が起こる危険な場面の画像生成の論文を読む

ランニング30分　英語できず

(1) 交通事故が起こる危険な場面の画像生成の論文を読む

「Expecting the Unexpected:Training Detectors for Unusual Pedestrians with Adeversarial Imposers」　https://scirate.com/arxiv/1703.06283

　この論文は歩行者の危険な場面の画像を自動生成するものです。

　これはhttps://twitter.com/miyamotok0105さん主催の「酒を飲みながらCVPR2017の論文を読む会」で興味を持った一つです。

　一般道の自動運転を可能にするには、危険な事象のデータを大量に集めて予測回避モデルを構築する必要がありますが、この事象は非常に稀なので限界がありました。しかし、この様な場面を大量に生成できれば精度のよいモデルが出来る可能性があります。

　現在はOpenposeで動作予測をしていて、歩行者の危険な行動を事前に察知できないかと問題意識を持っていた所、論文になっていたので読んでみました。

(1.1) 手法

　この論文は3Dゲーム作成ツールを使ったＧＡＮモデルとなります。

　　・偽画像はゲーム作成ツールUnity3Dで生成

　　・本物の画像はGoole ImageやBaidu Imageのタイトルを[traffic violation]等の言葉で検索し

　　　危ない歩行者の画像を集めたものです。　

GANなのでUnity3D生成器はより本物らいい画像を生成し、識別器は本物と偽物を識別し互いに敵対的に訓練します。

f:id:mabonki0725:20171020104118p:plain

　最も一般的な3Dゲーム生成ツール[Unity]で様々な場面を生成しますが、パラメータ $z$ を変動させて生成します。また経験的に人物の重なりは20％以下等の制限を入れています。

　パラメータ $z$ は多変量でキャラクター、背景、太陽の方向、歩行者の姿勢、天候等があります。　

f:id:mabonki0725:20171019215319p:plain

　よってＧＡＮの使命は危険な画像になる様な $p_\theta^{Unity}(z)$ を求める事になります。

　一般のGANの式は以下です。

　　 $min_G \ max_D V(D,G) = \mathbb{E}_{x \sim p_t(x)} [\log D(x) ] + \mathbb{E}_{z \sim p_z(z)} [\log(1 - D(G(z))) ]$

　しかしUnity3Dでゲーム場面を生成するので

　　 $min_I \ max_D V(D,I) = \mathbb{E}_{x \sim p_t(x)} [\log D(x) ] + \mathbb{E}_{z \sim \color{red}{Unity(Z_I)}} [\log(1 - D(G(z))) ]$

画像生成パラメータ $Z_I$ は多変量の正規分布を仮定して最適化はＧＡＮの深層学習で実現しています。しかし間にＵnity3Dが入っていので直接微分可能ではなく収束しないかもしれません。

この論文では２段階のアルゴリズム RPN(Region Proposal Netwrk)で物体認識を実現しています。

　・アルゴリズム①（偽者画像の選択）

　　偽者の画像で本物と誤認識率た高い複数の画像 $I$ を選択

　・アルゴリズム②（物体認識）

　　まず予備訓練として偽の画像で物体認識を訓練

　　本物とアルゴリズム①で得た紛らわしい画像で物体認識を訓練

　　次に本物だけで物体認識訓練

(1.2) 結果

　危険な歩行者の状態を生成した画像で、物体を矩形で認識しています。　

f:id:mabonki0725:20171019221040p:plain