ねほり.com

何もないから何かみつかる

KaggleのHome Credit Default Risk体験(サブミット編)

      2020/01/15

ビッグデータ分析、新卒年収は1000万円以上 東大生の人気職種に(産経新聞)

「官僚でもなく、有名企業でもなく、データサイエンティスト職を志望する東大生が目立ち始めている」(就職情報会社)。
滋賀大は平成29年度から、専門学部として全国初となる「データサイエンス学部」を新設。
横浜市立大も専門学部を開設した。東工大は今年4月から、全大学院生を対象にデータサイエンスとAIの教育を行うことを打ち出した。

AI専門家の大量生産時代が来ようとしています。

 

 

「Get started」の次のステップとされている「Playground」を体験してもメダルは出ません。

であれば、過去の「Featured」を体験して経験値を積むほうが早道です。

書籍も出ているようなので購入しました。

ただ「ディープラーニング」や「自然言語」「画像・音声処理」に関する記載はなく、「まずはLightGBMで解け」というKaggleに特化した書籍になっています(Kaggleで勝つことが目的の本なので仕方ないです)。

 

 

過去の「Featured」として、まずはタイタニック同様の「分類」コンテストで有名な次の問題を解いてみます。

Home Credit Default Risk

このコンペは与えられた個人のクレジットの情報や以前の応募情報などから、各データが債務不履行になるかどうかを予測する問題です。

ただし、Titanicのように1ファイルではなく、複数ファイル(テーブル)でデータが与えられています。

[参考] 過去の機械学習関係の記事

今回はサブミットを目標する

「application_train.csv」には顧客一人一人の主要な情報(性別や家族の人数、ローンのタイプ(現金or資産運用など)、資産額、車の有無など)と、ある期間までにローンの支払いができたら「0」、できなかったら「1」のラベルがついています。

「application_test.csv」にはラベルが無く、このファイルのデータの予測が求められています。。

・・・・、とりあえず、これぐらいの理解で進めます。

探索的データ解析(データの理解:EDA)

データの特徴を確認してみます。

次にヒストグラムとヒートマップを確認します。

際立って相関のある特徴量はありません。

うーん、小さ過ぎてよく分かりません・・・。

特徴エンジニアリング(データの準備:前処理)

欠損値の補完と、変数の数値化(エンコーディング)だけ行い、学習データ80%と検証データ20%に分けました。

この辺りも、今まで作成した実装そのままです。

学習モデルの構築

とりあえず分類に関する機械学習アルゴリズム(ディープラーニング除く)を全て試してみます。

その中で最もスコアが高かった結果を利用してサブミットを行ってみます。

学習モデルの実行

実行時間は2時間ぐらい必要でした。

今まで、株のシステムトレードで2,3時間かけて計算していた事を考えれば待つのは苦ではないです。

SVCはアホみたいに時間がかかりました。

その他、GradientBoostingClassifier、MLPClassifier なども遅いです。

一方でLGBMClassifier は早かったです。

そして正解率「0.920」と高いので、KaggleでLightGBMが人気なのも頷けます。

今回は「CatBoost」が最も良い正解率となりました。

結果のサブミット

サブミットした結果「スコア 0.53662」となりました。

順位は終了コンペなので分かりませんが推定で「6812/7175 = Top 95%」という糞結果です。

[改良] サンプルの答えとフォーマットの違いに気づく

「sample_submission.csv」を見てみると「TARGET」が「1」「0」でなくて小数となっていました。

今まではpredictを用いたラベル予測をしていましたが、実際にはどちらのラベルに分類されるか確率で表す事が求められていたようです。

このため、学習モデルをpredict_probaメソッドを使って予測させます。

一列目が「0」である確率、二列目が「1」である確率です。

要するに、下記は同じ事を意味します。

この小数の答えをサブミットしてみたところ、「スコア 0.70639」となりました。

順位は推定で「6119/7175 = Top 85%」という結果です。

まとめ

サブミットを最初の目標として進めました。

まずは準備ができたので、今後は他のKernelなどを見ながらスコアアップを目指していきます。

・・・が、インクリメンタルな開発の方が自分には向いているのかな。。

一度サブミットしてしまうと、モチベーションが下がってます。

全スコアを見る限り「0.81」〜「0.79」に大量に集中しています。

細かいチューニングが鍵ですが、面倒そうだなあ。

よく遭遇するエラー

TypeError: list indices must be integers or slices, not str

【原因】

「indices」([]の中に入るもの)として渡されたものが文字列にも関わらず、listのindicesが整数かスライスではない。

ソースコード

スコアは低いですが、今回のコードです。

 - 2020年(社会人16年), 機械学習, テクノロジー

  関連記事

DTI SIM 3G 100をVAIO Pで使ってみる

月額490円のパケット代定額「DTI SIM 3G 100」を始めてみました。 …

AWS Summit Tokyo 2013 は飯が食べれず

仕事をサボってAWS(Amazon web service) Summit To …

新年の挨拶・昨年の振り返りと2020年の目標

9年休なのに何も予定を立てず帰郷もぜず、いつの間にか新年を迎えてしまいました。 …

機械学習で株価予測(Two SigmaのKaggleコンペを確認)

計量的・実証的な投資におけるアルファは質の高いサーベイからもたらされるものであり …

ネクスト and ポストソーシャルは何か?

2011年12月31日(土) よいお年を。 父親「遊んでばかりいるんじゃない!リ …

機械学習で株価予測(TA-LibとLightGBMを使った学習モデル構築)

以前、LSTMを使ってKerasで実現した学習モデルでは、「一つ手前のデータと、 …

機械学習で株価予測(Protraを使ったバックテスト解決編)

前回は「Backtrader」を使って学習済みデータでProtra風バックテスト …

Kaggle の Titanic Prediction Competition でクラス分類(XGBoost、LightGBM、CatBoost編)

機械学習に精通し適切にデータを分類できるだけではなく、膨大なデータから課題を発見 …

情報革命とバイオ革命の融合「バイオ・インフォメーション・エイジ」

March 4, 2005 すでに、コンピューター業界もバイオを新たな成長分野に …

ソニーウォークマンNW-X1060 購入

2009年06月23日(火) SONY NW-X1060 購入しました 買ってし …