On-lineの株価予測で使うSCWの論文を読む
ランニング30分 英語できず
(1) On-lineの株価予測で使うSCWの論文を読む
[Exact Soft Confidence-Weighted Learning」https://arxiv.org/abs/1206.4612
この論文はICML2012で有名になったもので、時系列の次期の状態をOn-Lineで予測するものです。
時系列の今までの観測から次の変動の確率が内に収まる様に重みを調整する手法となります。論文表題にある様に解はExactに見つかりますので、繰返計算せずともよくOn-Lineに適しています。また実装は簡単なのでWebで公開しているサイトが散見されますが、その導出は相当難しいので本論文をなかなか読めなかった経緯があります。今回チャレンジしてみました。
(1.1) 手法
このモデルはOn-line学習としてPA(Passive-Aggressive)2006年→CW(Confidence-Weighted)2009年から発展しています。
モデルは次の条件で成り立っています。
・時系列の予測を多変量の説明変数と重みの内積<>で与えられるとします
・重みにはガウス分布の変動を許容します
・また騰落の実績で与えます
このモデルで求めたいのは下図の様に或る幅内に収まる次期の重みの十分統計量です
求めている値はガウシアン過程回帰と同じで回帰値と分散となりますが、SCWは次期の値のみ求めています。
・平均
・分散
以下に上記のモデルを定式化します。
が負の時 なら は正
が正の時 なら は正
騰落実績と予測の積は正となるので式で上の条件は次式で定式化できます。
この確率の条件は次式で表現できます。
ここで ではガウス累計関数です
そこで損失関数は以下で表せます。
よって最適問題は条件付となり、次の平均と分散を予測する以下となります
ここではカルバック・ダイバージェンシィで定義は以下です
上記の拘束条件の緩和率を入れてこの損失を1次の場合と2次の2モデルを提案しています。
SCW-I
SCW-II
この条件付最適問題はラグランジェ乗数を使って解くことができることがAppendexに記述されています。
損失関数は次式となります
第1項目のの部分は解くと以下になります。
この部分は下記のサイトに丁寧に記述されています。
正規分布間のKLダイバージェンスの導出 - 唯物是真 @Scaled_Wurm
損失関数をとで方程式をとくと とが算出できます。
よって
(1.2) 結果
本論文の結果はわかり難いので、次の福田先生の論文で示します。SCWはOn-lineで次期の予測ができるので福田先生はこのSCWで相当儲けたとの話でしたが、やはり一般の回帰問題で同じで変数選択を工夫する必要があるとの報告です。
http://sigfin.org/?plugin=attach&refer=SIG-FIN-016-02&openfile=SIG-FIN-016-02.pdf
これによると、2015 年9 月1 日~から2016 年2 月29 日までの半年の日経平均株価指数の騰落の予測は上昇で83%で下落で79%で当たっています。
(1.3) 感想
このモデルはICML2012で相当話題になって実装したの話をよく聞きます。しかしWebで検索すると実際にこれを適用した報告はかなり少ない様です。やはりモデルが精緻ても変数選択が良くなければ成果が出せないので、この辺はノウハウとして秘匿されているかもしれません。