読者です 読者をやめる 読者になる 読者になる

アルファ碁の勝因はGANモデルであること

テニス2時間 英語30分 Lesson33

(1) やはりAlpha碁の完勝は、強化学習での敵対的モデル(Adversalial Model)の有効性を証明したと思う。碁の様に天文学的な組合せでの最適化を可能にしたのは、対戦もAlpha碁とした事である。ロボッテクスの性能は、特徴量の選定とそのIRL(逆強化学習)の分配関数Z(θ)の精度で決まる。下記の論文では分配関数は敵対関係モデルで作成できることを示した。そう考えるとAlpha碁の勝因はIRL-GANとそっくりである。

https://arxiv.org/abs/1611.03852

・碁でのよい特徴量64l個の抽出に成功した

棋譜モデル(SL)で熟練者のデータを集めた

・敵対的モデル(RL)を繰返し精度を高めた

ロボッテクスや自動運転でモデルを強化するには、敵対的なモデルで敵対的データを生成し、このデータでモデルを強化する。この相互的補完モデルが性能を左右すると思われる。

 

研究者は年間500本の論文を読めとの話

ランニング30分 英語できず

(1) DeepLearningの中山英樹研究室Twitterでは、研究者は年間500本論文を読めとの話であった、AI論文が月間2000本出ているので実に少ない気がする。自分の生活としては毎日1本は読む必要を感じる。

(2)機械学習に概念を導入する論文を引き続き読む。PLSAやLDAの位置づけがわかって良かった。はやくこの論文の纏めをつくりたいものだ。

(3)ラズパイは64ビットでDeepLearningもできるぐらいのPCだが、画面がないので、これ専用の画面を3000円で購入した。8cm×6cmで実にちいさいが解像度は1028ある。

(4)ラズパイ・マウスの車輪を廻そうとすると、突然止まりOSがハングしてしまった。どうも電池不足が原因の様子で充電器の不具合らしい。学校に相談すると充電器を再購入してくれた。

 

グラフィカルな概念知識の章を読む

ランニングできず 英語30分 Lesson30

 (1) 引き続き「Machine Learning with Wold Knowlege」を読む。4章のExplicit Sematic Analysisの理屈がわかりにくい。この手のSurvey論文では古典的な手法の紹介がメインなので数式の定義が曖昧で苦労する。単語毎の概念知識が欲しいのであるが、どうしても文単位の概念の話になっている。次の節はグラフイカルモデルでの概念知識であるがこれも難解である。グラフィカルなモデルを概念として用いる例は以下がある。

https://arxiv.org/abs/1611.07012

自動代替テキストはありません。

(2)ラズパイマウスを自宅で、wifi接続してみる。自宅のネット環境では、一旦PCにwifi接続しないと、ラズパイがwifiを認識しないことが判明する。LEDの点灯まで確認する。

 

 

  

ラズパイマウスのwifi接続できた

ランニングできず 英語できず

(1) 機械学習で概念を学ぶ論文を引続き読む。

ようやく概念をモデルとして取り入れる§4に入いる。この本のレベルでは言葉とWikipediaのページ(概念)との共起確率TF-IDFを特徴量として定義している。

[1705.02908] Machine Learning with World Knowledge: The Position and Survey

(2) ラズパイマウスのwifi設定

 (2-0) 「ROSロボット入門」の記述の訂正があり、下記の通りパッチを当てる

raspimouse_book_info/wifiproblem.md at master · ryuichiueda/raspimouse_book_info · GitHub

 (2-1)  wifi wanl0 とhomewifi.confの指定

 sudo vi /etc/network/interfaces

       # This file describes the network interfaces available on your system
       # and how to activate them. For more information, see interfaces(5).

       # The loopback network interface
      auto lo
      iface lo inet loopback

      # Source interfaces
      # Please check /etc/network/interfaces.d before changing this file
      # as interfaces may have been defined in /etc/network/interfaces.d
      # See LP: #1262951
      #modify bellow by m.n on 2017.05.19
      #source /etc/network/interfaces.d/*.cfg

      #add bellow 4 line by m.n on 2017.05.19
      auto wlan0
      iface wlan0 inet dhcp
      wpa-conf /etc/wpa_supplicant/homewifi.conf
      wireless-power off

 (2-2) homewifi.confの設定 ssidとpasswdを設定する

 sudo vi /etc/wpa_supplicant/homewifi.conf

      network={
      ssid="7xrqutb1vy1my"
      psk="avcrn0b1bueq8"
     # psk=2d7988850f3fd9a95fd2d4cfe39c7733092071664397d19056d63c24634d8b2e
    }

 (2-3) reboot

 (2-4) 立上げ後にifconfigでwanl0のIPアドレスを確認

     wlan0 Link encap:イーサネット ハードウェアアドレス b8:27:eb:9a:49:6c
                inetアドレス:192.168.123.14 ブロードキャスト:192.168.123.255 マスク:

 (2-5) 他のPCでwifi接続をssidとpasswdをhomewif.confと同じもので行う

      ssid        7xrqutb1vy1my
      passwd  avcrn0b1bueq8

 (2-6) sshでリモートログイン

   ssh ubuntu@192.168.123.14

 

機械学習で常識を獲得する論文を読む

テニススクール90分 英語15分 Lesson28 

 Socherの論文で意味理解の精度を上げるなら、一般知識を組込む方がよいとあったので、20170508投稿の「Machine Learning with World Knowlege」を読み始める。機械学習の半教師学習による一部の知識から未知な知識の獲得モデルを拡張したものを提案しており興味深く読む。GANがそうだがこの論文には触れていない。一部の専門家の知識を報酬に転化する逆強化学習のモデルとも通じるものだ。ロボッテックスの知識が生きるかもしれない。

[1705.02908] Machine Learning with World Knowledge: The Position and Survey

 最近のSocherの強化学習とRNNを統合した文章要約の論文も注目する。こちらは言語間の内積ベースの議論を展開しており未だ理解途中である。

[1705.04304v2] A Deep Reinforced Model for Abstractive Summarization

SLAMを全てが曖昧な環境での自己位置推定と理解する

ランニングできず 英語30分 Lesson 28

 (1)ロボット学会千葉工大の上田先生が登壇すると聞き、急遽参加する。

http://www.rsj.or.jp/seminar/s105/第105回 ロボットに使えるビジョン技術

上田先生の話は、本当に自分の為だけにあったのではないかというSLAMのロジックの話。確率ロボットの理論は全てが曖昧な状態で正確に自己位置を認識する理論である。粒子フィルターの位置推定ではランドマークの位置は所与であったが、SLAMはランドマークの位置も曖昧な場合の理論と初めて理解できた。確率ロボットの難解な11章の意味が「地図生成はランドマークの曖昧差を解消する技術の応用」として理解できた。GitHubにこのプログラムが公開されているので懸案のC言語でのSLAM実装が楽しみである。

GitHub - ryuichiueda/probrobo_practice: 確率ロボティクスのアルゴリズム解説

この上田先生の講演でも言っていたし、質疑のすれ違いから感じたことは、曖昧差を扱う統計という大事な技術が未だよく理解されていないことである。この様な社会と教育が技術後退を招いている理由と思う。

(2)次に登壇したのが、DeepLearningの研究者の岡谷先生であった。DeepLearningの俯瞰的な話で新規さは少なかったが、やはり実際DeepLearningを研究者との知見が聞けてよかった。

「Pooling層と全結合層は使われなくなっている」

「DeepLearningの深と表現力の関係はRectifier Net理論で示されている」

「DeepLearningの技術発展は偶然のものが多く成功の影にはその数倍もの失敗がある」

(3)ROSの勉強会に参加する。主催者はやはりROSを強化学習のツールと思い込んでいたのでガッカリする。しかし最近ROSに強化学習のツールが充実し始めていることを知った。やはりロボッテクスは既存の技術の発展型と思う人が殆どで、曖昧差を扱う統計的視点がズッポリ抜け落ちている。統計の壁を改めて認識した。

 

 

 

Socherの本格的な意味解析の論文

ランニングできず 英語できず

 終日Socherの論文読み。意味解析を本格的に取組んだ古典的名論文である。

https://nlp.stanford.edu/pubs/SocherHuvalManningNg_EMNLP2012.pdf

 

f:id:mabonki0725:20170523073910p:plain

 言葉を配列Lと行列Lmのペアとしてとらえ、2分岐パーサで言葉間の関係を配列の重みWと行列の重みWmで統合して、節も配列と行列とする。これを再帰的に全文の配列と行列を生成する。パラメータとしては[W,Wm,L,Lm]を教師付き学習として階層型のLSTMで解く。VM-RNNモデル

f:id:mabonki0725:20170523081113p:plain

非凸空間であるが、収束は早いと述べている。但し行列は行列分解して次元を下げている。

   f:id:mabonki0725:20170523080853p:plain

この方法の特徴は、形容詞や副詞付きの語句がモデルに反映できることで、また言葉の行列(図中のA,B,C)にwordNetなどの外部の概念が反映できることである。

 

教師付データとしては以下の2方法

①映画の「評論文、感情の格」で学習させている。

f:id:mabonki0725:20170523075828p:plain

     学習結果 感情(9種類)毎の格(横軸)と判断確率(縦軸)

f:id:mabonki0725:20170523080150p:plain

     言葉[or not and]による論理判断結果は完璧と記述されている

②名詞間の関係の学習

f:id:mabonki0725:20170523080416p:plain