OpenPose論文の発想に唖然とする

ランニング30分  英語:必ず途中で寝てしまう

(1)引き続きOpenPoseの論文を読む。

https://arxiv.org/abs/1611.08050

この手の秀逸な論文を読むと学力・技術・発想の乖離に唖然としてしまう。

 ・単純なCNNの画像処理でなく、もはやCNNの組合せで構成されている

 ・NP-Hardな組合せ問題を緩和解で解決している

 ・動画(10枚/秒)でかつ群集でもパターン認識を達成している

 ・市場的価値が高いものを一般的に使えるものとして公開している

単純な技術の組合・応用でもなく、もはや文化の異なりを意識してしまう

f:id:mabonki0725:20170625100728p:plain

f:id:mabonki0725:20170625100619p:plain

1980~1995は日本が世界をリードしたが、これは優秀で均質な人々の協業で精密で故障の少ない商品が可能だったからである。しかしこれらはネット上でマニュアル化され部品化されると殆どが流通商品となり、日本は競争力を失ったと考えられる。この間に多民族国家の米国では、日本の様に協業による精密な製造は得意でないので、多様性を扱う統計モデルの学術を相当発展させたとしか考えられない。

多くの若い人はAIにかなり興味を持つが、統計モデルにぶつかるとそこから進めない状態となる。そもそも日本では皆同じ事を考えるので統計が必要とされない土壌があり、統計を教える機関や人材が殆どいない状態である。日本の置かれている状況をまず認識する必要があると思う。

(2)大学の研修で音声認識機能を追加したいとの話があった。日本製のJuliusモデルを考えている様だが、この分野は広く深いので自分としては難色を示した。最近はGMM-HMM(Gausian Mix Model - Hidden Marcov Modle)からDNN-HMMに移行している様である。自分としてはHMMを使わずLSTM-SOFTMAXだけで十分と思える。

GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine