3D領域認識のCNN-SLAMの論文を読む

テニス2時間 英語30分 Lesson 21

 家の沖合いでウンドサーフィン国際大会をやっていたので写真を撮る。

画像に含まれている可能性があるもの:1人以上、空、海、屋外、自然、水

 TwitterでCNN-SLAMの動画「3Dの領域認識」見て論文をダウンロードする。これはDLのCNNと位置認識SLAMとの統合モデルである。

[1704.03489] CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction

確率ロボテックスのSLAM理解で相当苦労しているので、この技術を習得できれば報われると思い論文を読むが、SLAMも相当進化しておりmonocular SLAM,ORB-SLAMというものを使っている。

[1502.00956] ORB-SLAM: a Versatile and Accurate Monocular SLAM System

画像やロボットの理解は控え様と思うが大学でロボットの勉強をしているのである程度やるしかない。

AI論文理解の壁を超えるにはPRMLを読めばよい

ランニングできず 英語20分 Lesson 21

 午前中は自動運転の勉強会「確率ロボテックス」13章 I君の輪読で解説。I君のクレバー差が分かる一方、殆ど内容が理解できなかった。11~13章は再読で早急に理解する必要がある。早く学校がPDF版の購入が待たれる。

 午後AI論文読み会で発表する。体調が優れないせいか、地図も理解でき無い様になっていて、移動に2時間かかる。会場にR先生が来てくれて、AI論文を読む工夫など議論でき盛り上がる。AI論文を読むには特殊な数学の壁がある。これはPRMLを読めば解消されるのだが、PRMLを教える教育機関も教師も無いのが日本のAIが衰退する理由と感じる。

 夕方学校に行って研修の報告会に出席するが、ラズパイ・マウスに触れる時間がなく、進捗ゼロである。K君からラズパイ・マウスにRTMが実装されたと聞き、是非挑戦したいと考える。

ラズパイマウス用RTCのインストール(Raspbian) | OpenRTM-aist

 帰宅後、やはりWindows上で開発したグラフィカルAIツールをHTML上で稼動させる使命みたいなものを感ずる。時間と体力との競争に入っている。

www.geocities.jp

IRLとGANが同じという論文の資料を作成する

ランニング30分 英語30分 Lesson 20

  明日のAI論文読み会の資料を作成する。資料を作成していつも思うことは、論文の理解が不十分で改めて発見があるということ。体力的には厳しいが、論文の資料作成は大事と感ずる様になった。GANの限界もIRLの難しさも改めて認識した。

・GAN-generatorは乱数から生成しているので、Lossを完全にゼロにするのは厳しい

・IRLは状況の改善を示す特徴量の特定が未だに手作りしかない。

https://www.slideshare.net/MasatoNakai1/irs-gan-doc-75501225

Pyhtonによる文章要約LexRankを作る

ランニングできず 英語できず

 Sockerの構文RNNの論文を読みはじめる。構文RNNによる分散表現が、感情分析や発話分析上、良い結果を示すのは驚きであるが一方当然との思いもある。このRNNがLSTMでなく単純なRNNである事も説得力がある。

https://nlp.stanford.edu/pubs/SocherHuvalManningNg_EMNLP2012.pdf

 Pythonの練習を兼ねて文章要約のLexRankを作る。これは文と文との類似性をTF-IDF情報量(言葉間の有意な関係を示す指標)の行列で計算して、その固有値で相関のランキングをするものである。

 

TF-IDFと情報量(エントロピー)の関連性を計算する | Welcome to Singularity

アリスの不思議な国の先頭50行での要約の結果。「突然穴に落ちたと」要約されている。

when suddenly, thump .
thump .
once or twice she had peeped into the book her sister was reading, but it had no pictures or conversations in it, `and what is the use of a book,' thought Alice `without pictures or conversation? .

GitHub - mabonki0725/LexRank: This is extract high rank sentence as LexRank by Python.


  夕方大学で原祥尭先生のROSデモ動画を見せ、私の研究したいイメージを示す。やはり動画での説明は説得力がある。ラズパイマウスで行うのは高価なレーザセンサーと分り対策に悩む。あと半年でどの様なことができるか試練が続く。

www.youtube.com

 

一応NLPを概観できる記事に従って論文を漁る

ランニング30分 英語30分 Lesson19

 自然言語からプログラム生成をRLとMMLで行うStanfordの論文をTwitterに揚げると、それなりに反応があったがあったが直ぐ収束したのは、この論文が具体的な記述が少ないからと思われる。報酬を何にするかの記述は欲しかった。

 PredNetのChainer版の稼動を目論むが、エラーで途中で止まる。要調査

 世界観を取込むMLの3月投稿の論文があったので、敢えてDLの時代にMLなのかと興味を持ち読んでみる気になる。 

[1705.02908] Machine Learning with World Knowledge: The Position and Survey

 直近のAI学会誌で自然言語の記事を見つける。やはり意味解析で文の評価が焦点の様だ。少し古いがここで紹介されたTaiのTree-LSTMとSockerの論文を読むことにする。この記事中の抽象意味論(AMR)もさっぱり分らない。CCGといい構文意味論になると急に難解になるのは何故なのか?

[1503.00075] Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

Semantic Compositionality through Recursive Matrix-Vector Spaces (Soc…

言語生成モデルでは敵対的に精緻化する場合が多い

ランニング30分 英語30分  Lesson18

自然言語からプログラムを生成するStandFordの論文を読む。BI-LSTMでEncode-Decodeする枠組みは同じだが、プログラムの最適選択をRL(強化学習)とMML(Max Marginal Likelihood)の両方を使って局所解を避けて生成するものである。本当にこの様なことができるか追試をしてみたいところである。

https://arxiv.org/abs/1704.07926

やはり言語生成には共通パターンがある様な気がする。人間の言語理解も同じか興味がある。

・言葉のvector化とLSTMによるEncoder-Decorderは共通

・敵対的な2モデルによる精緻化

 GAN  RL&MML NegativeSamplein

f:id:mabonki0725:20170510075315j:plain

 PredNetの論文を読むと殆ど数式が無い。DNCと同じなのでまず稼動することを考えGitHubでダウンロードするが、データ容量が150GなのとKerasでエラーが出るので諦める。もう少し小さいデータでの稼動例を探したい。

 

発表して思うことは「論文の細かい所は殆ど覚えていない」こと

ランニングできず 英語できず

 職場で64ビットPCが手配が遅れているので、仕方なくsciTeでpythonプログラムで要約文の抜出のLexRankを作成する。Linux上のspyやnotebookの様な統合開発環境では無いがそれなりの開発環境がある。ファイルから文字を読込み句読点を認識して文章をにするプログラムはC言語だと100行かかるが、改行が多いPythonだが20行で出来る。

try:
 f = open(filename, 'r')
except Exception, e:
 print e,'cannot open=',filename

 return

for line in f:
 words=line[:-1].split()
for word in words:
 allwords.append(word)
f.close()
wordlist=
sentences=

for word in allwords:
 if word.find('.') >=0 :
  wordlist.append(word[:-1]) #word[-1]は最後の文字 word[:-1]は最後の文字を除く
  sentences.append(wordlist)
  wordlist =[]
 else:
  wordlist.append(word)

for sentence in sentences:
 print sentence

 引続きRLとMMLによるプログラム生成の論文を読む。基本的な内容は、RLは累計価値の最大化、MMLは尤度の最大化で同じ様な式で定式かできるが、プログラム生成はに局所解(syurious)に落ち込むので、それぞれの長所で回避しようとするものである。 

[1704.07926] From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood

 夕方Team-AIのNLP勉強会に出るが、内容が発散傾向だったので自分で発表する。

https://www.slideshare.net/MasatoNakai1/vae-gan-nlp

勉強会は興味本位で参加する人が多いので、学術的な発表なので控えた方がよいと思ったがGANとVAEぐらいは知って欲しいと思い発表した。勉強会での発表していつも思うことは、「自分には殆ど意味が無い」「細かいことを殆ど覚えていない」のでこれからは控えた方がいいだろう。