ねほり.com

何もないから何かみつかる

機械学習を使った株価予測(ファンダメンタルズ指標導入でAUC=0.70超え)

      2020/02/15

株式投資は、予測するものではなくルールに沿って選ぶものです。

その際に、選んだ銘柄が当たろうが外れようが、つねに勝てるルールを作り出す事が大切です。

これは、「株の自動売買で億り人」を夢見て無駄な人生を費やしている一人の中年男の物語です。

前回、Webサイトを見て回った際に

68%を上回るモデルの改良には、為替などの情報や、テキストマイニング等を追加することが必要

と書かれていたので今回はスコア上げに注力してみます。

その中で「ファンダメンタルズ指標」も導入してみました。

テクニカル指標を追加・排除する

説明変数は多けれ多いほどよい

と思ってましたが違うようです。

テクニカル指標「ボリュームレシオ」を自作しましたが、AUCによるスコアは低下していました。

「移動平均乖離率(MA Deviation)」も低下させる要因でした。

更には、日々株価データの「安値」「出来高」なども不要のようです。

加えて「レンジ(高値-安値)」も不要、アノマリーである「曜日」もスコアを落とす要因でした。

 

アノマリー信者は滅びた方がいい

 

逆に少しスコアが上がったのは、

「平均方向性指数(ADX)」
「ATR(Average True Range)」

です。

これらはシステムトレードのストラテジー作っているときには通常は使うことはない指標です。

「単純移動平均(Simple Moving Average)」も、利用日数でスコアが変わります。

経験的には25日より長めを導入するとスコアが上りました。

「騰落レシオ」は相変わらずスコアアップに貢献してくれています。

なお、銘柄によって有効なテクニカル指標は異なるようなので代表銘柄の平均を見ながら調整しています。

交差検証を見直す

「K-分割交差検証( K-fold cross-validation)」より、「StratifiedKFold(層状K分割)」を使うほうが精度が高くなりました。

ただし、n_split(データの分割数)は「4」「5」「6」と分割するほど精度が高い・・・という訳でもなく銘柄によって異なるようです。

速度と全体平均を見て「5」を採用しました。

国債金利(ファンダメンタルズ指標)を使う

機械学習は中長期的な指標が好きだと分かったので、ファンダメンタルズ指標もスコアが上がるかと試しました。

ただ、問題は
 

何の指標が存在し、どうやって20年間分のデータを手に入れるか?

 
です。

マクロ経済の「使えるデータ」はどこにあるか?」というサイトに詳細な情報がありました。

  • GDP統計 
  • 為替レート、株価、物価(消費者物価指数、企業物価指数)
  • 景気動向関連データ(日銀短観、鉱工業生産指数、機械受注統計調査報告、経済指標カレンダー、景気動向指数、商業動態統計、車種別販売台数)

大量に存在するようです。

まずは国債金利を使ってみます。

10年物国債金利と日経平均株価との関係

国債金利情報のページに行くとCSVがダウンロード可能です。

Excelで開いて、余計なヘッダを削除、UTF-8に変換、古いデータを削除、日付のフォーマットを和暦から西暦に変換しました。

上記の前処理もPythonで実装すれば常に最新データが自動的に使えますが、有効に作用するか分からなかったので実装してないです。

その上で読み込み方は次のとおりです。

10年物国債金利と日経平均株価との関係をあらわすチャートです。

※ 青が「日経平均株価」
※ 赤が「10年物国債金利」

これらを見ると2013年までは相関があります。

ですが、2013年4月に日銀が国債を大量に買い取る異次元緩和と呼ばれる金融政策が実施されました。

これにより株価は大きく上昇し、長期金利は低下して両変数の乖離が大きくなっているのが分かります。

 

何度か記載してますが、これが過去のストラテジーが使えなくなった原因だと思ってます。

国債金利情報を追加した有効性の検証

赤字が今回の更新内容です。

【資金管理条件】

  • 銘柄選定(証券コード毎に時価総額ランキング1位の9銘柄)
  • 1回の購入資金 (100万円)
  • 投資総額 (1000万円)
  • 単利運用

【買いルール】

  • 3日後の始値が80%以上の確率で3%以上上がると判断した場合

【手仕舞いルール】

  • 3日経過

【機械学習データ】

  • [説明変数] 調整後始値、調整後高値、調整後安値、調整後終値、出来高、単純移動平均、移動平均乖離率、RSI、BB、MACD、VR、騰落レシオ、曜日ADXATR国債金利
  • [目的変数] 翌日の始値から3日後の始値が3%以上上がった・下がった
  • [学習モデル] 勾配ブースティング(LightGBM)
  • [モデル評価] 5分割StratifiedKFold(層状K分割)

学習結果

9銘柄それぞれのAUC精度は次のとおりです。

また、日経平均255銘柄の全データをpd.concatで接続して、計算させた結果は次のとおりです。

 

ようするに、

AUC = 0.70~0.73

となり0.70を超えました。
 

バックテスト結果

Protraを使ったバックテストの見た目は過去の結果と大差が無いので省略します。

勝率、プロフィットファクターは上がってますが、フォワードテストがボロボロなのは変化ありません。

まとめ

今回は、銘柄毎に最適な学習モデルを作成しています。

これが全銘柄一括の学習モデルにするとどうなるのかが気になります。

が、「K-分割交差検証」の中で検証用データも一緒に計算してしまうサンプルしか見つからず実力不足で方法が分かりません。

具体的には、交差検証で作成した学習モデルの保存・ロードした上で、各銘柄に対し共通の学習済モデルを適用して利益計算がやりたいです。

 - 2020年(社会人16年), 機械学習, ファンダメンタル投資, システムトレード, テクノロジー

  関連記事

検索エンジン「Google」のパロディサイトが増える(1/2)

自主プロが終わりません・・・ 集中講義がまだあります。まだ大学に行く必要がありま …

恒例の学科内「コンピュータオセロ大会」に解説役として参加する

今年も恒例、学科「コンピュータオセロ大会」があります。    …

ついてる仙人の投資手法の有効性検証(protraシストレ)

ライブラリのソースを読んだり、20種類程度の手法の株のバックテストを実施すること …

ドライブAのFATを読み取り中に、データエラー

やはり夏休みは暇でならない。 しかし、従来の休みであれば、プログラム能力はみるみ …

確定申告消費税未納の督促状が来た・・・

NTTドコモの基本使用料を最安値にしようとドコモショップへ。自分が「ベーシックプ …

加藤浩一氏の手法(BB&RSI)の有効性検証(protraシストレ)

チームに分かれて3ヶ月かけて検討したマネージャとガチンコ勝負の「社内コンペ」が終 …

ドラえもんVRで垣間見た新しい視覚体験

バンダイナムコエンターテインメントが製作したVRアトラクション『ドラえもんVR「 …

イザナミサンプル・シンプル逆張り買いの有効性検証(システムトレード)

最近は台湾や中国出張ばかりで、パソコンは故障するしシステムトレードの興味が薄れて …

KaggleのHome Credit Default Risk体験(サブミット編)

ビッグデータ分析、新卒年収は1000万円以上 東大生の人気職種に(産経新聞) 「 …

Windowsのパソコンにパーティションを分けてLinuxを入れてC言語学習を試みる

徒然なるままに日暮らし…  結局、何も変わらぬ日々。  「イ …