ねほり.com

何もないから何かみつかる

機械学習を使った株価予測(関連論文・サイトを調査してみる)

      2020/02/14

株式投資は、予測するものではなくルールに沿って選ぶものです。

その際に、選んだ銘柄が当たろうが外れようが、つねに勝てるルールを作り出す事が大切です。

Contents

内国外ヘッジファンドが機械学習を用いて日本株を売買するための研究を行っているのは間違いありません。

ヘッジファンドの手法は公開されませんが、日本の研究論文やブログであれば手法が記載されていると思い、調べてみました。

論文:テクニカル分析

株価予測は、コンピュータサイエンス、統計学、経済学、金融学、オペレーションズリサーチなど、さまざまな分野の多くの研究者を魅了してきました。

ですが未だに解かれていません。

深層学習を用いた株価予測の分析

論文2017年
学会名人工知能学会
研究機関東京大学
執筆者宮崎邦洋、松尾豊
学習モデルCNNと他の比較
対象Topic Core 50 30分足
説明変数31銘柄
目的変数30分先(1ステップ)
結果LTSM、MLP、PCA-CNNの順でF-scoreが高い

 

人工知能研究の第一人者として知られる、東京大学大学院工学系研究科の「松尾豊」教授の論文です。

金融時系列に対して䛾 CNN 䛾応用可能性を検証する.CNN 䛿前述したとおり,非常に高い特徴発見能力を有しており,時系列データにおいても株価変動䛾シグナルとな
るような時系列パターン䛾発見ができることが期待される。

株価予測にCNNが有効と聞いたことがありますが、そのハシリの論文になります。

深層学習による株価予測

論文2017年
学会名
研究機関北九州市立大学
執筆者林田実、池田欽一
学習モデル8層、ユニット37層、最適化関数Adam、Chainer
対象ソフトバンク1分足
説明変数高値-安値、変化率、基準日-経過日数
目的変数3分後の株価の上昇、下降(変わらず)
結果精度77.9%、正解率53.5%

 

具体的に実装内容が書かれている論文は多くなかったので多少参考になります。

が・・・、これは論文じゃなさそうです。

銘柄類似度グラフの時系列構造変化に基づく株価予測

論文2016年
学会名人工知能学会
研究機関関西学院大学
執筆者羽室行信、岡田克彦
学習モデル
対象TOPIX(1987 年から 2014 年までの 28 年間)
説明変数枝密度の閾値σを超えたあと下回るまで買い増す
目的変数枝密度
結果株価の大幅下落時の転換点の検知に有効

 

これは「セリング・クライマックス(投資家の過度な悲観)」の定量的評価の手法提案が目的です。

ただし、銘柄の関係性の構造変化の解析(ピアソンの積率相関係数をSketchSort 法で解く)はファイナンス分野では初めての試みとの事です。

SCWを用いた株価変動予測

株価の値動きは、需給、株価材料、投資家心理、為替、経済政策、国内外の政治経済状況、地政学、影響力の高い人物の発言、マスメディアなど様々な要因の影響を受ける。

この論文では、株価が上がるか下がるかの方向性だけではなく、株式の売買タイミングにも重点をおいた株価の値動きを予測する手法を提案したとの事です。

論文2016年
学会名人工知能学会 金融情報学研究会
研究機関名古屋産業大学
執筆者福田ムフタル
学習モデルSCW(Soft Confidence-Weighted)
対象予測できる可能性が高く、リスクが低い銘柄(日経平均株価指数)10年分
説明変数時価総額50億円以上の上場1000銘柄、日経平均株価指数の時系列データ
騰落強度(全銘柄)
目的変数ある時点から見た過去○日間の株価終値の変動率
結果「上がる」「下がる」と予測世界率が80%前後

 

オンライン学習の一つである Soft Confidence-Weighted Learning (SCW)を利用しています。

サポートベクターマシンを利用した株価の値動き予測

「SCWを用いた株価変動予測」の論文の参考文献となっていた研究報告です。

論文2011年(オンライン文献存在せず)
学会名電子情報通信学会技術研究報告
研究機関前橋工科大学
執筆者渕井亮、鍾寧
学習モデルサポートベクターマシン(SVM:Support Vector Machine)
分類問題と回帰問題の両面から株価の値動き方向性予測
対象
説明変数移動平均値と RSI (Relative Strength Index) の組み合わせ
目的変数
結果

 

Deep Belief Networkを用いた日経平均株価の予測に関する研究

「SCWを用いた株価変動予測」の論文の参考文献となっていた研究報告です。

株価の変動など、経済時系列の変化は非定常かつ非線形性が強く、予測は非常に困難である。

論文2014年
学会名人工知能学会研究会
研究機関東京大学
執筆者小牧昇平、白山晋
学習モデルDeep Belief Network(DBN)
対象1991年7月11日から1997年9月1日の日経平均株価の終値
説明変数n日間の株価時系列データと全学習期間内で正規化したデータ
目的変数予測した数値の平均と正解の値
結果訓練期間をずらしていく予測では訓練期間を固定した予測よりも全体として評価指標の値は悪くなる

 

この論文の手法は次のような特徴を持っており、参考になりそうです。

  • 日経平均株価の予測を行うが,日経平均株価の時系列データに別のデータを組み合わせて複数の時系列データを入力できるようにする
  • 適切な訓練期間の選択として,訓練期間を常に最新のものに更新し続ける
  • 自己組織化マップ(SOM)を用いて訓練期間全体のデータから部分的なデータを取り出し、この部分的なデータのみで学習を行うことで効率的な学習を可能とする

Support Vector Machine による値動きの方向性に注目した短期間の経済時系列予測

「Deep Belief Networkを用いた日経平均株価の予測に関する研究」の参考文献の一つです。

「日経平均株価と FXを組み合わせることにより、日経平均株価の予測精度が向上する」という研究と紹介されており興味を持ちました。

論文修士論文(2008年)
学会名電子情報通信学会総合大会講演論文集
研究機関東京大学
執筆者中田貴之、古関隆章
学習モデルSVM(Support Vector Machine)
売買判断は毎日行う(株保有なし)
・「上がる」予測は、当日の終値で上限値まで買う
・「下がる」予測は、ホールド
売買判断は毎日行う(株保有あり)
・「上がる」予測は、ホールド
・「下がる」予測は、当日の終値で全て売却
対象日経平均株価
説明変数2002年10月~2006年4月(学習データ)
目的変数2007年1月~2007年12月(検証データ)
結果年利80%(手数料を考慮しても年利15%は確実)

 

以前は時系列と実際の値との誤差を小さく予測するかといった点に焦点を上げている。
しかし株の取引では収益を上げることが最終的な目標である。
そこで、近年では株価の値そのものを予測するのではなく、売買ポイントを予測したりや売買ルールを作成する研究が増えている。

として、幾つかの参考文献を紹介されています。

  • ニューラルネットを活用した従来型テクニカル分析手法改善の試み、2006
  • デイトレードのための遺伝的プログライミングによる売買ルールの生成、2007
  • 進化論的計算手法の株式売買ルール生成への応用、2007

株価ローソク足チャート画像を用いた畳み込みニューラルネットワークによる株価変動予測

説明変数として「ローソク足の画像」を利用する場合の王道的な手法です。

論文2019年
学会名北九州大学「商経論集」
研究機関北九州大学
執筆者池田欽一
学習モデルCNN(Convolutional neural network)
対象日経平均株価の1分毎
説明変数株価から作成したローソク足の画像
目的変数2~5分後の株価予測の上がる下がるの2ユニット
結果ランダムより精度が良かった

畳み込みニューラルネットワークによる株価インデックス騰落予測

論文2018年
学会名
研究機関同志社大学
執筆者白方健司、津田博史
学習期間2013年~2017年
学習モデルVGG16、全結合2ユニット、確率的勾配法、ホールドアウト検証2回
対象日経平均株価(RSI 50%以下は除外)
説明変数75日チャート画像
目的変数5種類(強い上昇、上昇、横ばい、下落、強い下落)
結果東証業種別に対しては精度のばらつきが発生した

 

ディープラーニングを実装するためのフレームワークとして Kerasを使用し、バックエンドには Tensorflowを使用しています。

また、モジュールとしてチャート画像を作成するために mpl_finance、matplotlib を使用し、時系列クラスタリングのために tslearnを使用しているそうです。

深層学習を持ちいた株価動向推定

論文2014年
学会名社会システム部会研究会
研究機関慶應義塾大学
執筆者白片倉賢治、高橋大志
学習期間2003年~2012年
学習モデルRNTN(Recursive Neural Tensor Network)等
対象日本市場及び日本企業に関する英語ニュース記事411531件(ThomsonReuters社提供のNews Feed Direct (NFD)を利用)
説明変数NDF記事を用いたセンチメント・インデックス(Z-score)
目的変数
結果Z-scoreの値が大きい日に何らかのイベントが生じている可能性がある

 

・ファイナンス分野にお いて広く用いられているファクターモデル及びマクロ指標を取り込んだ分析を行い、価格変動メカニズムの解明を試みる
・ファクターモデルに関するデータ(FFファクター)は 、久保田、竹原(2007) に従い、日本における東証1部、東証2部から構成される銘柄から算出した3ファクター(マーケットファクターである Rm-Rf 、Smallminus BigのSMBファクター、 High minus LowのHMLファクター)を用いた。

少し経路が異なり論文の理解が追いついていません。

LSTM を用いた株価変動予測

論文ダウンロード2017年
学会名人工知能学会
研究機関中央大学
執筆者松井藤五郎、汐月智也
学習モデルLSTM、隠れユニット128、学習率0.01、サンプリング率0.2、忘却バイアス0.2
対象トヨタ(分足)
説明変数利益率の時系列データ(上場来高値なども予測させるため)
目的変数1分後の利益率
結果符号一致率87.0%、過学習発生

 

過学習が生じ、テストデータに対する予測ができない点が課題である

と書いてあります・・・・ダメでしょ。

チャート画像を用いた株価移転学習

全国からAI専攻の学生100名超が一斉に集結したAI株価予測コンペ「Fintech Data Championship」の優勝者の論文です。

市場データ(株価・為替・原油・先物など)、 企業財務データ、 ニュースデータ、 天候データ、 その他ビッグデータなどが説明変数として提供されています。

論文ダウンロードPDF存在せず(URL
学会名
研究機関京都大学
執筆者井ノ上雄一、後藤馨
学習モデルGNNでVGG16
対象2019年1月29日から2400日間
説明変数90日の値から作った画像、日足の終値(株価分割を考慮した調整後終値を利用)
目的変数5%以上上がったら1、それ以外は0
生成されたデータが全部で105,136枚、うちラベル「1」が26,050枚
結果精度62.3%、AUC 0.672、F-score 0.639

株価変動パターンの類似性を用いた株価予測

論文ダウンロード2017年
学会名人工知能学会
研究機関日興グローバルラップ株式会社、筑波大学
執筆者中川慧、今村光良、吉田健一
学習モデルIndexation Dyancmic Time Warping(IDTW)
対象TOPIX(1989年1月~2006年12月(学習)
2007年1月~2016年12月(検証))
説明変数検証期間と似た変動パターンをした月の株価変動
目的変数正答率
結果過去の株価変動を特徴量とするモメンタム戦略よりも投資戦略として有効

 

銘柄別期間全列挙に基づく季節性アノマリーのマイニング

論文2016年
学会名人工知能学会
研究機関関西学院大学
執筆者岡田克彦、羽室行信
学習モデル
対象TOPIX500市場価値の上位 500 銘柄
説明変数 2001年~2014 年
目的変数収益性 (profitability)、定常性 (stationality)、安定性 (stability)
結果2008 年から 5 年間は年初に季 節性アノマリが認められ、それ以外の年では 6 月のアノマリ が認められる

 

論文:ファンダメンタルズ分析

「景気ウォッチャー調査」「中小企業景況調査」「ツイッター」「Yahoo掲示板」「ロイター通信」などのテクニカル分析とは異なるデータを教師データとした研究が行われています。

高頻度板情報の時空間パターン分析による株価動向推定

論文2014年
学会名人工知能学会研究会
研究機関東京大学
執筆者中山敦貴、山田健太、和泉潔
学習モデルCNN
対象 5 銘柄(1925,4188,5401,5411,6301)
説明変数2013年7月~2014年6月の1時間毎の画像
目的変数10秒後に株価が上昇している画像を1、それ以外を0
結果ロジスティック回帰の40×40の画像が一番良い、正答率は60%を超えている

ディープラーニングによる 経済記事テキストデータを用いた株価予測

論文2014年
学会名
研究機関高知工科大学
執筆者奥村順哉、吉田真一
学習モデルDBN (DeepBelief Network)
対象2014 年のデータセットから選出された単語を用いて 2015 年 1 月の株価の予測
説明変数 2014 年のニュース記事 (全64564 記事)
目的変数日経平均終値が前日比+0.5%増加、前日比-0.5%減少、値動きなしの3クラスのデータ
結果SVM よりDBN が3ポイント高くなる、選出した単語を翌年の株価予測に適応した場合,識別精度が下がる

ニュースのテキスト情報から株価を予測する

論文2015年
学会名人工知能学会
研究機関東京工業大学、慶應義塾大学
執筆者五島圭一、高橋大志、寺野隆雄
学習モデルDeep Learning
対象東証 1 部上場企業(2009 年から 2010 年)
説明変数マーケットリターン (Rm),リスクフリーレート (Rf),バリューファクター (HML),サイズファクター (SMB) の日次データ、ロイターニュース
目的変数2010 年のニュース記事の超過リターン
結果超過収益を獲得できる

 

分析の流れは次のようになっています、分かりやすい。

個人の予測信頼度を加味した株価掲示板情報からの株価予測

論文2016年
学会名人工知能学会
研究機関ヤフー株式会社
執筆者山下達雄、坪内孝太
学習モデル
対象
説明変数ユーザが入力する感情スコアの動きと実際の株価の動きとの相関(50 日分以上投稿しているユーザ対象)
目的変数
結果実際の株価に対し予測性能が全般的に高いユーザが存在する

 

ファイナンス掲示板情報からの株価予測

論文2016年
学会名人工知能学会
研究機関ヤフー株式会社、東京大学
執筆者山下達雄、坪内孝太、伊藤友貴、和泉潔
学習モデルロジスティック回帰、サポートベクターマシン、ランダムフォレスト
対象2014 年 9 月䛾 1 ヶ月分
説明変数word2vecにより 200 次元䛾ベクトルによりスコア化
目的変数1,5,10分後、引けまで䛾変動率
結果ランダムフォレストで有意な性能向上が見られた

 

ティックデータを用いたニュースと株価との関連性分析

秒単位でのニュースと日本株式市場との関連性を分析した論文です。

論文2016年
学会名人工知能学会
研究機関東京工業大学、慶應義塾大学
執筆者五島圭一、高橋大志、寺野隆雄
学習モデル10 分割の交差検定を繰り返し,平均 2 乗誤差が最小になるように決定、サポートベクター回帰によって,ニュースへのポジネガス
コア付与
対象東証一部上場企業
説明変数ニュース(9 時から 15 時までに配信されたニュース)
目的変数ニュース配信時刻の前後 60 分間における株価リターン
結果ポジティブなニュースやネガティブなニュースはボラティリティが高い

 

Twitter の多軸的感情情報を利用した株価の予測

論文2018年
学会名言語処理学会
研究機関東海大学大学
執筆者増井佑亮、藤野巖
学習モデル重回帰モデル
対象
説明変数2014年時の「モンスト」のキーワードを含むツイートから算出した感情指数値から算出した10軸の感情指数値
目的変数Mixi に於ける2014年時の一週間ごとの調整後終値
結果上昇した確率は、71.43%、下降した場合は40.0%9

 

深層学習を用いたアンサンブルモデルによる株主価値推定モデルの提案

論文2016年
学会名人工知能学会
研究機関東京大学
執筆者田村浩一郎、上野山勝也
学習モデルロジスティック回帰、SVM、バギング、ランダムフォレスト、XGBoost、MPL(テクニカル分析はLSTM)
対象日経平均株価構成225銘柄の5年間の週足
説明変数複数企業のXBRLファイルから抽出したファンダメンタルズ情報
目的変数60日後、240日後の予測時から上昇するか下降するかの正解率
結果EV、連結総従業員数、株価、株式発行数、PBR、PER、従業員数、配当利回り、法人税等の支払額、配当金の支払額の順で重要

 

ファンダメンタルズ分析を取り入れた論文として非常に参考になります。

何より、株取引にも機械学習にも詳しいです。

なお論文中のファンダメンタルズ分析の情報抽出方法は次のとおりです。

  • 有報キャッチャーAtomAPIを利用して過去情報を取得
  • 金融庁が公開しているタクソノミ要素リストを元に各要素の名前空間を作成

その他、過去論文で次のような検証結果も報告されています。

  • テクニカル分析に加えてファンダメンタルズ分析を組み合わせた提案モデルが、テクニカル分析、さらにはファンダメンタルズ分析の各単体手法よりも高い精度の株主価値推定を行える
  • XGBoostの決定木の情報利得を利用した重要度分析により、予測対象が長期化するほどファンダメンタルズ分析が有効

論文:中身確認予定

Webサイト記事

大量に存在しますが、多くは「Kerasを使ってLSTMで、日経平均の上り・下がりを予測してみた。勝率は55%未満」なものでした。

それ以外の記事をピックアップしてみます。

正答率67%のディープラーニング株価予測モデル_2

WebページURL
執筆者Hiroki Hamada
学習モデルMLPClassifier(モデル4日分、隠れ層100~170、alpha0.1~0.5)
対象上場企業423社の20年分の株価
説明変数各種テクニカル指標
目的変数
結果正答率67%

68%を上回るモデルの改良には、為替などの情報や、テキストマイニング等を追加することが必要かも・・と書かれています。

その他

調べれば調べるだけ出てきます。

代表的(なんどかシリーズとして記載している)な記事は次のとおりです。

まとめ

論文では「利益」ではなく、研究対象としてニュースや景気感などが株価に与える因果関係の研究が多いようです。

興味深い記事もありましたが、筆者がバックテストの意味が分かっていないのか実取引のシュミレーション観点での検証が不十分です。

これでは、過学習を起こしているかどうか全く判断できません。

結論としては・・・・

  • 市場というものは、過去にないような構造に変化する可能性がある
  • 未来を予測することは不可能

という前提で考えると、

世界の変化を注視しながら、次々と新しい戦略を考案し、試行錯誤を繰り返す

だけなのかな・・と。

三点チャージ法や斎藤氏の逆張り手法が未だに適用できるのは単に利用者が多いからなのかな・・・・。

 - 2020年(社会人16年), 機械学習, 投資, システムトレード, テクノロジー

  関連記事

社内アイデアコンテストに9件提出して部門長奨励賞を頂く

やり切りました。。 ホールの1ブロック占拠して、9件のデモを展示しました。 顔を …

情報革命とバイオ革命の融合「バイオ・インフォメーション・エイジ」

March 4, 2005 すでに、コンピューター業界もバイオを新たな成長分野に …

大学時代からのテクノロジー学習一覧

2009年03月21日(土) 大学時代からの習得内容をまとめた 最近は、Pape …

JavaScriptを使った一発ギャグ

有限会社ヘッドジャパン・・・・の求人情報 待遇・・・・ 各種社保完備 昇給 賞与 …

BNF氏の手法の有効性検証(protraシストレ)

最近は人気のないProtraですが、基本的な機能は備わっており、今年になっても使 …

curlと1024バイトとExpect: 100-continue

GWも出社して動作確認の手使いと、今月末リリース予定の実装を進め中。 山手線も会 …

4点チャージ投資法の有効性検証(protraシストレ)

3点チャージ投資法というのは下落相場において、多くの銘柄に売買サインが出ます。 …

本上武士氏の上昇トレンド型の株システムトレード検証(システムトレード)

台風の日から一週間ずっと左目が痛いです。赤く腫れて痒みがあります。 10年ぶりに …

うねり取り手法の神髄(板垣浩氏編)

林輝太郎氏・立花義正氏・板垣浩氏は、正統派ともいうべき相場師達です。 以前、うね …

エンジニアによる品質保証(品質説明力編)

「バグ出しのテスト」をすれば品質が保証できると思いがちですが、そうではありません …