Singularityの試案

ランニング30    英語できず

(1) 学校の研修の企画書のため、Singularityモデルの資料を作成し始める。

 Singularityとは、計算機が自分で考える機能を持つことと定義

 計算機が自分で考えるとは以下と捉える。

 考えるとは、計算機が最適な方策を決定するまで、以下を繰り返すこととする

 1)設定した状況の価値を推定することができる

 2)その状況の価値を損なう状況を生成することができる

 3)今までの状況も損なわなわず、新たな状況に対する最適な手段をとれる

 

 

 1)状況の価値を推定する方法

  a)前提として

   ・状況は特徴量の組合せで表現できるものとする。

   (例えば迷路なら、迷路の壁の位置、現在位置が特徴量となる)

   ・計算機に目的と選択手段が与えられてる。

   (例えば目的は出口に至る、選択手段は進む方向)

   ・選択した手段毎に状況が変わる

  b)方法

  状況が特徴量に分解できるとすると、GANによって擬似的な状況が生成できる

  生成した状況から手段による新状況を作り出す。これをランダムに繰り返せば

  目的に到達できる可能性がある。達成できれば、そこから逆算して現状況の価値

  が計算できる。達成できなければ、現状況はその目的に関して無価値である。

  c) GAN

  設定された状況に似た状況を生成するとは、半教師学習のモデル化であり

  まさにGANの生成機能である。GANで似た状況を多数生成できれば、状況の

  生起確率は計測できるはずである。発生確率が高い状態で目的が達成できれば

  その状況は価値が高く、発生確率が低ければ価値は低いと看做してよい。

 2)その状況の価値を減じる状況の生成

  価値を最も損なう状況を作ることを目的とする敵対的モデルを駆動する。

  最も損なうとは、目的を損なわせる確率が高い状況を生成することである。

  その様な状況が生成できなければ、終了

 3)敵対的な状況設定でも、目的を最も達成し易い手段を提供する

  状況の価値が計算できれば、手段毎に価値を微分して、最大価値増加

  できる手段が決定できる。(Q学習そのもの)

 

試案上の問題

 1) 状況を特徴量に分解できる、有意な方法が無い。画像であればCNNが

  自動で特徴量を把握しているが一般には使えない

 2)手段を選択する毎に新たな状況が出現し、特徴量を見出す必要がある

 3)選択手段と新状況の繰返しで、無限に状況が生成される問題の対策

  確率的に発生がレアな状況は無視する

  同様な状況があれば、再利用する(記憶の利用)

  計算機パワーに期待する

 

考察

 DeepMindのモデルに沿って考察

 ・Alpha碁

        SLモデルでは特徴量が64個

  敵対モデルは相手側の計算機の最適着手決定モデル

  CNNのパターン認識による着手予想で探査空間を狭めている