mabonki0725の日記

道路交通標識を誤判別させるモデルの論文を読む

AI論文確率・統計

ランニング30分　英語できず

(1) 道路交通標識を誤判別させるモデルの論文を読む

　「Robust Physical-World Attacks on Machine Learning Models」https://arxiv.org/abs/1707.08945v3

　本年４月ころに日産の自動運転の技術者の講演では人命に関わる問題なので、あらゆる事象の組合せを考える事に疲労しているとの話がありました。この問題の解決には計算機が現実的な範囲で可能性のある組合せを自動生成するしかないと考えています。本論文はこの範疇を扱った論文として読み初めしましたが生成モデルとは関係なく、DNNに誤判別をさせる現実的なデータを如何に作るかの話でした。

　SNSでは殆どDNNを騙せる画像を作れることで話題になっています。

　ここで誤判別の対象となる道路標識は停止(STOP)と右折(Right Turn)となります。誤認識させる要因として以下を揚げています。

　・全体に霞がかかっている

　・標識が汚れている

　・落書きがある

　・背景と紛わらしい

　・距離が遠い、斜めの視角

　下図に計算機で生成した傷んだ画像の例を示します。

　各写真の下部の(a)～(e)は標識までの距離と視角となります。

　(a) 5m 角度0度(b)5m 角度15度 (c)10m 角度0度 (d)10m 角度30度 (e)40m 角度0度

　図3 靄がかかっている場合

f:id:mabonki0725:20170913135828p:plain

　図4 背景が紛わらしい場合

f:id:mabonki0725:20170913135912p:plain

　図5 LOVE HATEという落書きがある場合 f:id:mabonki0725:20170913143029p:plain

　図6 抽象的な絵が張ってある場合　

f:id:mabonki0725:20170913195607p:plain

　本論文の目的は票識をDNNに誤認識させる生成器 $\mathcal{RP}_2$ (Robust Physical Pertubations)を構築することです。

　具体的に述べると $\mathcal{RP}_2$ は次の課題について精度を向上させることです。

　91%の標識識性能を持っているDNNについて

　　停止（STOP）の標識を制限速度45(Speed Limit 45)に誤認識させる

　　右折（Right Turn)の標識を制限速度45(Speed Limit 45)にご認識させる

　下図の様に停止(STOP)と制限速度45の標識は全く異なっていて誤認識は困難な課題だと分ります。

f:id:mabonki0725:20170913201036p:plain

(1.1) 手法

　例えばスピード制限45の標識に霞をかけた画像を $y'$ とすると、これに近い画像にするには、次の様なノイズ $\delta$ を入れるモデルで標識画像を生成します。

　　 $argmin_\delta \lambda ||\delta||_p - J(f_\theta(x+\delta),y')$

ここで

　　　 $||\delta||_p = \left( \sum_{i,j} |\delta_{i,j}|^p \right)^{1/p}$

　　　 $x$ は元画像の特徴量

$f_\theta(x)$ は画像の特徴量 $x$ の識別関数

$J(x,y)$ は画像 $x$ の識別と画像 $y$ との損失関数

$i,j$ は画像のPixel位置

　　また標識に文字や絵画を入れるにはNPS(non-printability score)項を追加して作成します。

　　 $argmin_\delta \lambda ||\delta \cdot M_x||_p + NPS(M_x \cdot \delta) - J(f_\theta(x+\delta),y')$

ここで $M_x$ は文字や絵画の画像です。

(1.2) 結果

　不思議なことに上図の図3～図6は人間には識別できますが、殆どはDNNを騙せた画像です。

下表は停止標識(STOP)を制限速度45(Seed Limit45)に誤認識する様に画像を生成させて、これをDNNで識別させた上位２位の識別結果です。（　）内は信頼度です。

　霞掛けと抽象画の生成画像では100%（上位１位）制限速度45と認識させることが出来ています。　

※ SL45:制限速度45 STP:停止 LE:出口 ADL:追加路 SA:前方信号 YLD =Yield

f:id:mabonki0725:20170913223949p:plain

(1.3) 感想

　この論文ではDNNを騙す画像生成の仕組み $\mathcal{RP}_2$ のロジックとその精度を論じていて、かなりの精度でDNNを騙すことに成功しています。

　画像識別のDNNは精度は良いが、データのノイズに弱いとされていて、今回これが確認できました。

　本論文の意味はこの様な敵対的画像を作成して、ノイズに強いDNNを構築できる様にすることです。しかしDNNを強化してもこれを誤認識させる $\mathcal{RP}_2$ が出てきてしまうので「いたちごっこ」の連鎖は続くと思います。結局[ $\mathcal{RP}_2　\Longleftrightarrow \ \ DNN$ ]のGANが必要になるかもしれません。