先端のAI研究者は1日10本論文を読む

ランニングできず 英語できず

(1) 確率ロボット輪読会に参加。9~13章のSLAMが終了し、強化学習の章になってほっとする。ここではBellman方程式による方策関数と価値関数の両方の実装が必要になっており先進的なモデルである事がわかる。両関数も非線形なので最近はDeepLearningで解くことが普通なので詳しい理論式は皆無である。かなり複雑な状況でも対応できる例が示してあるが、これは特徴量に分解した結果で実現できる事を述べた。

f:id:mabonki0725:20170618093435p:plain

次章のPOMDPは反対に詳細な解説になって期待できる。この会はT先生が真摯に付きあって頂いているので続いていると改めて感じる。

(2)I君が主催する「AI論文読み会」に参加。Dr.Rの最先端の意味解析としての知識ベース利用型のLDAの解説を受ける。これを聞きグラフィカル・モデルでのベイズ推定の勉強し直しの必要を感じる。またDr.Rは毎日10本ぐらい論文に目を通すとのこと。改めて最先端のAI研究者の凄さを垣間見る。以下はDr.Rが言及した論文の一覧

Grounding Topic Models with Knowledge Bases

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/12/ijcai16ground.pdf Supplementary Material

https://www.cs.cmu.edu/~zhitingh/data/ijcai16ground_supp.pdf

Towards Bayesian Deep Learning: A Survey

https://arxiv.org/abs/1604.01662

Recurrent Topic-Transition GAN for Visual Paragraph Generation https://arxiv.org/pdf/1703.07022.pdf

TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency https://arxiv.org/abs/1611.01702

(3)同読み会で「エネルギーベースの生成モデル」を述べる。生成モデルでのシンギュラリティの可能性の話をしたが同意を得られず、かなり無理な話として受け取られた様だ。もう少し具体例を入れて説明をする必要を感じる。皆の疑問は現実の世界は様々な可能性に満ち溢れている様に見え、その可能性を全てモデル化できるかというものであろう。Alpha碁に見られる様に状況の特徴量へ分解が旨く行けば、そのパラメータの確率的な動きで様々な状況が作れるはずである。例えば上図で示した状況で具体的な生成モデルの実現例を話すべきと考える。

協調型の強化学習の論文を読む

ランニングできず 英語できず

(1) マルチエージェントの強化学習モデルの論文を読む。この動画はこのモデルでの対戦模様である。

https://arxiv.org/abs/1703.10069

Alpha碁の成功によって単独の強化学習は目処がたったとして、社会型のAIとして協調型の強化学習が大事な課題としている。

この論文の寄与としては、過去の協調型のモデルを丁寧に紹介して、全体が俯瞰できて便利である。

また協調型の強化学習は普通の強化学習と同じBellman方程式や下図にある様に2モデル構成のポリシィ学習(左図)とQ学習(右図)できることを示している。

協調型として相互通信はするのだが、協調動作するため各メンバーが双方向RNN(BiCN:BiDirectionally Coordinated Network)で連結され学習が伝播できる仕掛けになっている。敵を倒す学習は同じだが各メンバーの視野や位置や設定した個性が違うので、自然な協調型の動作が実現できている。

しかし各Agentがどの様な特徴量で学習しているかは記述が無いのが残念。

GitHubはこちら

GitHub - eishub/Starcraft: This project creates a bridge between BWAPI for StarCraft: Brood War and EIS-enabled Multi-Agent Systems like GOAL.

ww

f:id:mabonki0725:20170617074333p:plain

w.youtube.com

AI論文読み会の資料にシンギュラリテイを盛り込む

ランニングできず 英語30分

(1) CMUの留学生がOpenPoseの動画デモを見に大学に来たので少し話す。OpenPoseを見に来たので相手の専攻をBioInfomaticと言っているのをBioPhotometricと聞き間違い、以降すれ違いの会話となってしまった。英語は先入観で全く異なる言葉に聞こえるのが困る。

(2)StarCraftマルチエージェントの論文を引き続き読む。Rewardの設定方法が身方と敵方の生命レベルをゼロサムとする事と双方一緒にBellman方程式で記述できることは理解できたが、各エージェントが競合できる様にする最適化の式が理解できず苦しむ。各エージェントの最適化は伝播するモデルである事を凡そ理解した。土曜日にR先生と会った時に色々質問したいと考える。

(3)大学での研修が、OpenPoseとLSTMを使った教師付モデルで早期に成果を出す方針となる。成果がでればある程度の冒険も可能になるかもしれない。

(4)土曜日のAI論文の読み会資料を纏める。シンギュラリティの思いを入れたつもりで盛り上がればと念ずる。

(3)

www.slideshare.net

マルチエージェントモデルの論文を初めて読む

テニススクール90分   英語できず

(1) テニスで運動した後、図書館で下記の強化学習系の論文を読む。目的はGame場面毎の特徴量の抽出方法を探るため

 ・DeepMindの擬似カウントモデル

https://arxiv.org/abs/1703.01310

        N社のSさんから教えてもらったDeepMindのマリオゲームを題材とする擬似カウントを報酬とする論文。できるだけ異なる場面を選択する様に行動するとGame場面が達成できるので、同じGame場面の回数の評価の方法。特徴量抽出としてNeural Densityを使っていて、これは解像度を恣意的に落として場面の特徴量を抽出し易くしている。この手法についてはNeural Density Modelをちゃんと読む必要がある。

 ・Game上で複数人が協調する、所謂マルチエージェントモデル

https://arxiv.org/abs/1703.10069

  これはR先生に教えてもらったStarCraftという宇宙Gameで敵を共同作戦で倒すマルチエージェント型強化学習モデルの論文。多分6月17日のAI論文読み会ではR先生がこれの解説をしてくれると思う。この論文ではAlpha碁の達成で単独の問題は一応目処がついたとし、人間の社会は協調型で問題解決をするのでマルチエージェント型モデルがこれからの主題となるとしている。マルチモデルの歴史的な解説もあり秀逸な論文で、Bi-Directional Coordinateted Network(BiCNet)で実現している。

 

 

     

動作がある場面の特徴量の抽出では、有向のベイジアンネットが使えると考える

ランニングできず 英語できず

(1)T研の機械学習ゼミで解説があったGANの理論背景の論文を再読することにする。

https://arxiv.org/abs/1610.03483

途中まで読んで、これは確率密度比の理論と思っていたが、再読すると殆ど理解していない事に愕然とする。

(2) 現在人手で行っている応諾業務をXgboostでモデル化するとAUCが98%と出ているとの報告がある。これは異常に高い値なので、2つの可能性がある。 

 ・応諾の結果を反映した変数がモデルの説明変数に使われている

 ・人手の応諾がかなり機械的な処理をしている

一般的には前者だが、入力変数を精査する限り該当変数が見当たらない。もし後者ならかなり人手を削減することが出来るかもしれない。

(3) XgboostをPythonで使うためインストールするが、途中でエラーになるため難航する。原因をネットで調べるが情報が存在しない。S助教に相談するため学校に行くとCudaコマンド一つでインストールできることが分る。オープンソースについてはネット上に情報が溢れ、最初にどれがヒットするかで後続の操作が異なる状態になっている。この様な情報の整理も非常に大事だと認識した。

Installation Guide — xgboost 0.6 documentation

(4)S助教とAlpha碁がシンギュラリティを達成したかについて少し話しをする。広い分野でのシンギュラリティを達成するには、対象問題をどの様に特徴量として分解できるかが鍵ということになった。Alpha碁の場合は碁盤とそのルールの限定されたで対象で、これが64の特徴量で構成できると見破ったことが大きい。S助教によれば、現実の世界は場面が変遷する都度に特徴量が入れ替わるのが普通で、もう少し複雑なゲームで考えるべきとの主張である。ゲームにおける特徴量の取得にはDeepMindの論文があったことを思い出す。

[1606.01868] Unifying Count-Based Exploration and Intrinsic Motivation

この問題の特徴量抽出にはデータからベイジアンネットを自動生成するモデルが使えないかと考え始める。この有向グラフィカルモデルは一般に強力なデータ集約機能と因果関係抽出機能があることが判明している。

Bayesian net16409

 

 

 

Steinモデルによる生成モデルに注目する

ランニングできず 英語できず

(1) Bengioの論文の未理解部分を再検討し、1箇所を除き漸く納得した。未解明部分はエントロフィの算出部分であるがプログラム見るしかない。不明だった点として実験例に手書き数字の変遷過程が掲載されている。例えば8と3の間の数字を生成しているが、中間の数字は学習時にこれらを混ぜて入力して生成していることがわかった。

f:id:mabonki0725:20170613070613p:plain

(2)T研の機械学習ゼミでNIPS常連のK君が説明した生成モデルの論文が注目に値する。こんな難しい資料を見るのは久しぶりである。K君に云わせるちゃんと式を展開すれば理解できるとのことである。これは今年にNIPSで発表されたものであるが、Steinモデルを使うと難解の分配関数Zθが計算しなくてよく、カーネルによりモデルを精緻化できるとの話である。時間があれば精読したい。

http://www.cs.dartmouth.edu/~qliu/PDF/steinslides16.pdf

Stein’s Method for Practical Machine Learning

(3) Xgboostを使ったモデルの検討に参加する。かなりの変数をモデルに取込むので、分析データには頑健だが、時間経過による分析データの変動には脆弱と思われる。現担当者もこの点を危惧しており、時間経過後のデータとバリデーションしてモデル構築する工夫をしている。多分Xgboostの時間的劣化具合が初めて明らかになるプロジェクトと思われる。

 

 

Bengioのエネルギーベースの生成モデルを纏める

テニス2時間 英語できず

(1) BengioのEnergy-Baseの生成モデルを纏める。このモデルはGANではなく、安定エネルギーに向かってデータを生成しているモデルである。しかしエネルギー関数は敵対的な関数を採用している。いつもながら資料を作ってみると細かい部分が理解できない状態であることがわかる。

https://www.slideshare.net/MasatoNakai1/deep-genenergyprobdoc

 

理解をするためMusyokuさんの実装プログラムをダウンロードするが、稼動できなかったので一旦中断する。

GitHub - musyoku/ddgm: Chainer implementation of Deep Directed Generative Models with Energy-Based Probability Estimation

N社のIさんがChainerでプログラムを実装しているので、連絡することにする。

(2) 自分の研究分野の進路について、かなり悩む。T研のM先生に相談することにする。早く発想、実験、論文のフェーズに入りたい。