機械学習を使った株価予測（関連論文・サイトを調査してみる）

株式投資は、予測するものではなくルールに沿って選ぶものです。

その際に、選んだ銘柄が当たろうが外れようが、つねに勝てるルールを作り出す事が大切です。

論文：テクニカル分析
論文：ファンダメンタルズ分析
論文：中身確認予定
Webサイト記事
1. 正答率６７％のディープラーニング株価予測モデル_2
2. その他
まとめ

内国外ヘッジファンドが機械学習を用いて日本株を売買するための研究を行っているのは間違いありません。

ヘッジファンドの手法は公開されませんが、日本の研究論文やブログであれば手法が記載されていると思い、調べてみました。

論文：テクニカル分析

株価予測は、コンピュータサイエンス、統計学、経済学、金融学、オペレーションズリサーチなど、さまざまな分野の多くの研究者を魅了してきました。

ですが未だに解かれていません。

深層学習を用いた株価予測の分析

論文	2017年
学会名	人工知能学会
研究機関	東京大学
執筆者	宮崎邦洋、松尾豊
学習モデル	CNNと他の比較
対象	Topic Core 50 30分足
説明変数	31銘柄
目的変数	30分先（1ステップ）
結果	LTSM、MLP、PCA-CNNの順でF-scoreが高い

人工知能研究の第一人者として知られる、東京大学大学院工学系研究科の「松尾豊」教授の論文です。

金融時系列に対して䛾 CNN 䛾応用可能性を検証する．CNN 䛿前述したとおり，非常に高い特徴発見能力を有しており，時系列データにおいても株価変動䛾シグナルとな
るような時系列パターン䛾発見ができることが期待される。

株価予測にCNNが有効と聞いたことがありますが、そのハシリの論文になります。

深層学習による株価予測

論文	2017年
学会名	–
研究機関	北九州市立大学
執筆者	林田実、池田欽一
学習モデル	8層、ユニット37層、最適化関数Adam、Chainer
対象	ソフトバンク1分足
説明変数	高値-安値、変化率、基準日-経過日数
目的変数	3分後の株価の上昇、下降（変わらず）
結果	精度77.9%、正解率53.5%

具体的に実装内容が書かれている論文は多くなかったので多少参考になります。

が・・・、これは論文じゃなさそうです。

銘柄類似度グラフの時系列構造変化に基づく株価予測

論文	2016年
学会名	人工知能学会
研究機関	関西学院大学
執筆者	羽室行信、岡田克彦
学習モデル	–
対象	TOPIX（1987 年から 2014 年までの 28 年間）
説明変数	枝密度の閾値σを超えたあと下回るまで買い増す
目的変数	枝密度
結果	株価の大幅下落時の転換点の検知に有効

これは「セリング・クライマックス（投資家の過度な悲観）」の定量的評価の手法提案が目的です。

ただし、銘柄の関係性の構造変化の解析（ピアソンの積率相関係数をSketchSort 法で解く）はファイナンス分野では初めての試みとの事です。

SCWを用いた株価変動予測

株価の値動きは、需給、株価材料、投資家心理、為替、経済政策、国内外の政治経済状況、地政学、影響力の高い人物の発言、マスメディアなど様々な要因の影響を受ける。

この論文では、株価が上がるか下がるかの方向性だけではなく、株式の売買タイミングにも重点をおいた株価の値動きを予測する手法を提案したとの事です。

論文	2016年
学会名	人工知能学会金融情報学研究会
研究機関	名古屋産業大学
執筆者	福田ムフタル
学習モデル	SCW（Soft Confidence-Weighted）
対象	予測できる可能性が高く、リスクが低い銘柄（日経平均株価指数）10年分
説明変数	時価総額50億円以上の上場1000銘柄、日経平均株価指数の時系列データ騰落強度（全銘柄）
目的変数	ある時点から見た過去○日間の株価終値の変動率
結果	「上がる」「下がる」と予測世界率が80%前後

オンライン学習の一つである Soft Confidence-Weighted Learning (SCW)を利用しています。

サポートベクターマシンを利用した株価の値動き予測

「SCWを用いた株価変動予測」の論文の参考文献となっていた研究報告です。

論文	2011年（オンライン文献存在せず）
学会名	電子情報通信学会技術研究報告
研究機関	前橋工科大学
執筆者	渕井亮、鍾寧
学習モデル	サポートベクターマシン(SVM:Support Vector Machine) 分類問題と回帰問題の両面から株価の値動き方向性予測
対象
説明変数	移動平均値と RSI (Relative Strength Index) の組み合わせ
目的変数
結果

Deep Belief Networkを用いた日経平均株価の予測に関する研究

「SCWを用いた株価変動予測」の論文の参考文献となっていた研究報告です。

株価の変動など、経済時系列の変化は非定常かつ非線形性が強く、予測は非常に困難である。

論文	2014年
学会名	人工知能学会研究会
研究機関	東京大学
執筆者	小牧昇平、白山晋
学習モデル	Deep Belief Network（DBN）
対象	1991年7月11日から1997年9月1日の日経平均株価の終値
説明変数	n日間の株価時系列データと全学習期間内で正規化したデータ
目的変数	予測した数値の平均と正解の値
結果	訓練期間をずらしていく予測では訓練期間を固定した予測よりも全体として評価指標の値は悪くなる

この論文の手法は次のような特徴を持っており、参考になりそうです。

日経平均株価の予測を行うが，日経平均株価の時系列データに別のデータを組み合わせて複数の時系列データを入力できるようにする
適切な訓練期間の選択として，訓練期間を常に最新のものに更新し続ける
自己組織化マップ（SOM）を用いて訓練期間全体のデータから部分的なデータを取り出し、この部分的なデータのみで学習を行うことで効率的な学習を可能とする

Support Vector Machine による値動きの方向性に注目した短期間の経済時系列予測

「Deep Belief Networkを用いた日経平均株価の予測に関する研究」の参考文献の一つです。

「日経平均株価と FXを組み合わせることにより、日経平均株価の予測精度が向上する」という研究と紹介されており興味を持ちました。

論文	修士論文（2008年）
学会名	電子情報通信学会総合大会講演論文集
研究機関	東京大学
執筆者	中田貴之、古関隆章
学習モデル	SVM(Support Vector Machine) 売買判断は毎日行う（株保有なし）・「上がる」予測は、当日の終値で上限値まで買う・「下がる」予測は、ホールド売買判断は毎日行う（株保有あり）・「上がる」予測は、ホールド・「下がる」予測は、当日の終値で全て売却
対象	日経平均株価
説明変数	2002年10月～2006年4月（学習データ）
目的変数	2007年1月～2007年12月（検証データ）
結果	年利80%（手数料を考慮しても年利15%は確実）

以前は時系列と実際の値との誤差を小さく予測するかといった点に焦点を上げている。
しかし株の取引では収益を上げることが最終的な目標である。
そこで、近年では株価の値そのものを予測するのではなく、売買ポイントを予測したりや売買ルールを作成する研究が増えている。

として、幾つかの参考文献を紹介されています。

ニューラルネットを活用した従来型テクニカル分析手法改善の試み、2006
デイトレードのための遺伝的プログライミングによる売買ルールの生成、2007
進化論的計算手法の株式売買ルール生成への応用、2007

株価ローソク足チャート画像を用いた畳み込みニューラルネットワークによる株価変動予測

説明変数として「ローソク足の画像」を利用する場合の王道的な手法です。

論文	2019年
学会名	北九州大学「商経論集」
研究機関	北九州大学
執筆者	池田欽一
学習モデル	CNN(Convolutional neural network)
対象	日経平均株価の1分毎
説明変数	株価から作成したローソク足の画像
目的変数	2～5分後の株価予測の上がる下がるの2ユニット
結果	ランダムより精度が良かった

畳み込みニューラルネットワークによる株価インデックス騰落予測

論文	2018年
学会名	–
研究機関	同志社大学
執筆者	白方健司、津田博史
学習期間	2013年～2017年
学習モデル	VGG16、全結合2ユニット、確率的勾配法、ホールドアウト検証2回
対象	日経平均株価（RSI 50%以下は除外）
説明変数	75日チャート画像
目的変数	5種類（強い上昇、上昇、横ばい、下落、強い下落）
結果	東証業種別に対しては精度のばらつきが発生した

ディープラーニングを実装するためのフレームワークとして Kerasを使用し、バックエンドには Tensorflowを使用しています。

また、モジュールとしてチャート画像を作成するために mpl_finance、matplotlib を使用し、時系列クラスタリングのために tslearnを使用しているそうです。

深層学習を持ちいた株価動向推定

論文	2014年
学会名	社会システム部会研究会
研究機関	慶應義塾大学
執筆者	白片倉賢治、高橋大志
学習期間	2003年～2012年
学習モデル	RNTN（Recursive Neural Tensor Network）等
対象	日本市場及び日本企業に関する英語ニュース記事411531件（ThomsonReuters社提供のNews Feed Direct (NFD)を利用）
説明変数	NDF記事を用いたセンチメント・インデックス(Z-score)
目的変数	–
結果	Z-scoreの値が大きい日に何らかのイベントが生じている可能性がある

・ファイナンス分野において広く用いられているファクターモデル及びマクロ指標を取り込んだ分析を行い、価格変動メカニズムの解明を試みる
・ファクターモデルに関するデータ(FFファクター)は、久保田、竹原(2007) に従い、日本における東証1部、東証2部から構成される銘柄から算出した3ファクター(マーケットファクターである Rm-Rf 、Smallminus BigのSMBファクター、 High minus LowのHMLファクター)を用いた。

少し経路が異なり論文の理解が追いついていません。

LSTM を用いた株価変動予測

論文ダウンロード	2017年
学会名	人工知能学会
研究機関	中央大学
執筆者	松井藤五郎、汐月智也
学習モデル	LSTM、隠れユニット128、学習率0.01、サンプリング率0.2、忘却バイアス0.2
対象	トヨタ（分足）
説明変数	利益率の時系列データ（上場来高値なども予測させるため）
目的変数	1分後の利益率
結果	符号一致率87.0%、過学習発生

過学習が生じ、テストデータに対する予測ができない点が課題である

と書いてあります・・・・ダメでしょ。

チャート画像を用いた株価移転学習

全国からAI専攻の学生100名超が一斉に集結したAI株価予測コンペ「Fintech Data Championship」の優勝者の論文です。

市場データ（株価・為替・原油・先物など）、企業財務データ、ニュースデータ、天候データ、その他ビッグデータなどが説明変数として提供されています。

論文ダウンロード	PDF存在せず（URL）
学会名	–
研究機関	京都大学
執筆者	井ノ上雄一、後藤馨
学習モデル	GNNでVGG16
対象	2019年1月29日から2400日間
説明変数	90日の値から作った画像、日足の終値（株価分割を考慮した調整後終値を利用）
目的変数	5%以上上がったら1、それ以外は0 生成されたデータが全部で105,136枚、うちラベル「1」が26,050枚
結果	精度62.3%、AUC 0.672、F-score 0.639

株価変動パターンの類似性を用いた株価予測

論文ダウンロード	2017年
学会名	人工知能学会
研究機関	日興グローバルラップ株式会社、筑波大学
執筆者	中川慧、今村光良、吉田健一
学習モデル	Indexation Dyancmic Time Warping(IDTW)
対象	TOPIX（1989年1月～2006年12月（学習） 2007年1月～2016年12月（検証））
説明変数	検証期間と似た変動パターンをした月の株価変動
目的変数	正答率
結果	過去の株価変動を特徴量とするモメンタム戦略よりも投資戦略として有効

銘柄別期間全列挙に基づく季節性アノマリーのマイニング

論文	2016年
学会名	人工知能学会
研究機関	関西学院大学
執筆者	岡田克彦、羽室行信
学習モデル	–
対象	TOPIX500市場価値の上位 500 銘柄
説明変数	2001年～2014 年
目的変数	収益性 (profitability)、定常性 (stationality)、安定性 (stability)
結果	2008 年から 5 年間は年初に季節性アノマリが認められ、それ以外の年では 6 月のアノマリが認められる

論文：ファンダメンタルズ分析

「景気ウォッチャー調査」「中小企業景況調査」「ツイッター」「Yahoo掲示板」「ロイター通信」などのテクニカル分析とは異なるデータを教師データとした研究が行われています。

高頻度板情報の時空間パターン分析による株価動向推定

論文	2014年
学会名	人工知能学会研究会
研究機関	東京大学
執筆者	中山敦貴、山田健太、和泉潔
学習モデル	CNN
対象	5 銘柄(1925,4188,5401,5411,6301)
説明変数	2013年7月～2014年6月の1時間毎の画像
目的変数	10秒後に株価が上昇している画像を1、それ以外を0
結果	ロジスティック回帰の40×40の画像が一番良い、正答率は60％を超えている

ディープラーニングによる経済記事テキストデータを用いた株価予測

論文	2014年
学会名	–
研究機関	高知工科大学
執筆者	奥村順哉、吉田真一
学習モデル	DBN (DeepBelief Network)
対象	2014 年のデータセットから選出された単語を用いて 2015 年 1 月の株価の予測
説明変数	2014 年のニュース記事 (全64564 記事)
目的変数	日経平均終値が前日比+0.5%増加、前日比-0.5%減少、値動きなしの3クラスのデータ
結果	SVM よりDBN が3ポイント高くなる、選出した単語を翌年の株価予測に適応した場合，識別精度が下がる

ニュースのテキスト情報から株価を予測する

論文	2015年
学会名	人工知能学会
研究機関	東京工業大学、慶應義塾大学
執筆者	五島圭一、高橋大志、寺野隆雄
学習モデル	Deep Learning
対象	東証 1 部上場企業（2009 年から 2010 年）
説明変数	マーケットリターン (Rm)，リスクフリーレート (Rf)，バリューファクター (HML)，サイズファクター (SMB) の日次データ、ロイターニュース
目的変数	2010 年のニュース記事の超過リターン
結果	超過収益を獲得できる

分析の流れは次のようになっています、分かりやすい。

個人の予測信頼度を加味した株価掲示板情報からの株価予測

論文	2016年
学会名	人工知能学会
研究機関	ヤフー株式会社
執筆者	山下達雄、坪内孝太
学習モデル	–
対象	–
説明変数	ユーザが入力する感情スコアの動きと実際の株価の動きとの相関（50 日分以上投稿しているユーザ対象）
目的変数	–
結果	実際の株価に対し予測性能が全般的に高いユーザが存在する

ファイナンス掲示板情報からの株価予測

論文	2016年
学会名	人工知能学会
研究機関	ヤフー株式会社、東京大学
執筆者	山下達雄、坪内孝太、伊藤友貴、和泉潔
学習モデル	ロジスティック回帰、サポートベクターマシン、ランダムフォレスト
対象	2014 年 9 月䛾 1 ヶ月分
説明変数	word2vecにより 200 次元䛾ベクトルによりスコア化
目的変数	1,5,10分後、引けまで䛾変動率
結果	ランダムフォレストで有意な性能向上が見られた

ティックデータを用いたニュースと株価との関連性分析

秒単位でのニュースと日本株式市場との関連性を分析した論文です。

論文	2016年
学会名	人工知能学会
研究機関	東京工業大学、慶應義塾大学
執筆者	五島圭一、高橋大志、寺野隆雄
学習モデル	10 分割の交差検定を繰り返し，平均 2 乗誤差が最小になるように決定、サポートベクター回帰によって，ニュースへのポジネガスコア付与
対象	東証一部上場企業
説明変数	ニュース（9 時から 15 時までに配信されたニュース）
目的変数	ニュース配信時刻の前後 60 分間における株価リターン
結果	ポジティブなニュースやネガティブなニュースはボラティリティが高い

Twitter の多軸的感情情報を利用した株価の予測

論文	2018年
学会名	言語処理学会
研究機関	東海大学大学
執筆者	増井佑亮、藤野巖
学習モデル	重回帰モデル
対象
説明変数	2014年時の「モンスト」のキーワードを含むツイートから算出した感情指数値から算出した10軸の感情指数値
目的変数	Mixi に於ける2014年時の一週間ごとの調整後終値
結果	上昇した確率は、71.43％、下降した場合は40.0％９

深層学習を用いたアンサンブルモデルによる株主価値推定モデルの提案

論文	2016年
学会名	人工知能学会
研究機関	東京大学
執筆者	田村浩一郎、上野山勝也
学習モデル	ロジスティック回帰、SVM、バギング、ランダムフォレスト、XGBoost、MPL（テクニカル分析はLSTM）
対象	日経平均株価構成225銘柄の5年間の週足
説明変数	複数企業のXBRLファイルから抽出したファンダメンタルズ情報
目的変数	60日後、240日後の予測時から上昇するか下降するかの正解率
結果	EV、連結総従業員数、株価、株式発行数、PBR、PER、従業員数、配当利回り、法人税等の支払額、配当金の支払額の順で重要

ファンダメンタルズ分析を取り入れた論文として非常に参考になります。

何より、株取引にも機械学習にも詳しいです。

なお論文中のファンダメンタルズ分析の情報抽出方法は次のとおりです。

有報キャッチャーAtomAPIを利用して過去情報を取得
金融庁が公開しているタクソノミ要素リストを元に各要素の名前空間を作成

その他、過去論文で次のような検証結果も報告されています。

テクニカル分析に加えてファンダメンタルズ分析を組み合わせた提案モデルが、テクニカル分析、さらにはファンダメンタルズ分析の各単体手法よりも高い精度の株主価値推定を行える
XGBoostの決定木の情報利得を利用した重要度分析により、予測対象が長期化するほどファンダメンタルズ分析が有効

論文：中身確認予定

Stock price movement prediction using distributed representations of financial report
Stock Price Forecasting Using Information from Yahoo Finance and Google Trend
資産価格変動パターンの類似性に着目した金融市場予測の評価
金融レポート、およびマクロ経済指数によるリアルタイム日銀センチメントの予測
投資割合を考慮した投資先類似度に基づく投資信託のクラスタリング
時系列データの動向概要を示す要約文生成に向けて
テキスト情報から生成された極性辞書を用いた市場動向分析
深層学習と高頻度データを用いた株式注文状況の推定
時系列データ間䛾連関性と関係性理解䛾ためのビジュアルインタラクティビティ
テキストモダリティ分析に基づく投資家心理の検証
新聞記事の時系列テキスト分析による株式市場の動向予測
専門家記事と機械学習に基づくWebニュースからの日経平均株価予測 (言語理解とコミュニケーション)
ニューラルネットを活用した従来型テクニカル分析手法改善の試み、2006
デイトレードのための遺伝的プログライミングによる売買ルールの生成、2007
進化論的計算手法の株式売買ルール生成への応用、2007
フィルタリングと機械学習に基づく Webニュースからの日経平均株価予測

Webサイト記事

大量に存在しますが、多くは「Kerasを使ってLSTMで、日経平均の上り・下がりを予測してみた。勝率は55%未満」なものでした。

それ以外の記事をピックアップしてみます。

正答率６７％のディープラーニング株価予測モデル_2

Webページ	URL
執筆者	Hiroki Hamada
学習モデル	MLPClassifier（モデル4日分、隠れ層100～170、alpha0.1～0.5）
対象	上場企業423社の20年分の株価
説明変数	各種テクニカル指標
目的変数
結果	正答率６７％

68％を上回るモデルの改良には、為替などの情報や、テキストマイニング等を追加することが必要かも・・と書かれています。

その他

調べれば調べるだけ出てきます。

代表的（なんどかシリーズとして記載している）な記事は次のとおりです。

機械学習で株価予測～scikit-learnで株価予測④：世界の主要指数の追加～
（世界の主要指数をXGBoostとLightGBMで精度52%）
QuantXで機械学習使って株価予測してみたpart2
（テクニカル指標、ランダムフォレスト、損益15%）
１日10時間株価予測AIを作り続ける
（ローソク足の画像、精度64%、500 epochs）
Twitter感情分析で株価予測の論文を検証したら約70%の精度で上下予測できた
（Xgboost、ダウ平均株価のUPorDOWNを予測）
テクニカル指標をごちゃっと混ぜて株価予測
（34年間の日経平均をRSIやWilliams %Rなどを使ってKerasで計算。RoC curveは0.518）
tensorflow+kerasで株価予想をやってみた(その２）
（終値のほかに移動平均線、ボリンジャーバンド、MACD、RSIなどなどの22項目の説明変数、5日間の終値の変化が1%以内、1%以上乱高下、1%以上上昇、1%以上下落の4つの目的変数、Kerasで計算、ランダムに選んだ場合と変わらない）
株AIを結構頑張ったら、儲かりそうな雰囲気が出ている
（仕手株（支持線・抵抗線、三尊/逆三尊、移動平均線での反発などのルールを持つ）の認識のために、自分で「この銘柄だったら勝負したい」を手動でラベリング、Co-teaching、Temporal Convolutional Network (TCN））
Yet another 機械学習で株価を予測する (5)
（交差検証、RandomForestClassifier、利回り5 %弱）
機械学習で株価を予測（まとめ）　〜平均予測精度57%〜
（ランダムフォレスト、東証REIT指数などの説明変数、精度57%）
株価と収益の関係　(すみ田たかゆき)
（半年先の企業収益の見込みから現在の株価が決定されている、「経常利益の対前年変化率＝東証株価指数１２月移動平均の対前年変化率　×１．１５−０．０６」となり、半期先の企業収益が１０％変化（増加）すると予想される場合、株価は約８．７％程度増加することになる）

まとめ

論文では「利益」ではなく、研究対象としてニュースや景気感などが株価に与える因果関係の研究が多いようです。

興味深い記事もありましたが、筆者がバックテストの意味が分かっていないのか実取引のシュミレーション観点での検証が不十分です。

これでは、過学習を起こしているかどうか全く判断できません。

結論としては・・・・

市場というものは、過去にないような構造に変化する可能性がある
未来を予測することは不可能

という前提で考えると、

世界の変化を注視しながら、次々と新しい戦略を考案し、試行錯誤を繰り返す

だけなのかな・・と。

三点チャージ法や斎藤氏の逆張り手法が未だに適用できるのは単に利用者が多いからなのかな・・・・。