KaggleのHome Credit Default Risk体験（他人のKernelパクリ編）

過去の「Featured」として、まずはタイタニック同様の「分類」コンテストで有名な次の問題を解いてみます。

Home Credit Default Risk

このコンペは与えられた個人のクレジットの情報や以前の応募情報などから、各データが債務不履行になるかどうかを予測する問題です。

[参考] 過去の機械学習関係の記事

Kernel（Notebooks）って何？
どのKernelを見ていくか？
「LightGBM with Simple Features」は何をやっているのか？
必要箇所をコピーして実行してみる
1. LightGBMで実行エラー
2. CatBoostで実行エラー＆実行
サブミットする
まとめ
ソースコード

Kaggleで勝つには次の書籍がおすすめです。

Kaggleで勝つデータ分析の技術

門脇大輔, 阪田隆司, 保坂桂佑, 平松雄司

3,536円(07/26 08:33時点)

発売日: 2019/10/09

Amazon 楽天市場

Amazonの情報を掲載しています

この書籍によると、分析コンペで銅メダルに入賞するためには、Kernel（Notebooks）をしっかりとおいかけて基本フローをしっかりと押さえていくことで取れることがあるらしいです。

※ 2019年8月からKernelはNotebooksと名称が変わりましたが、多くのサイトや書籍では引き続きKernelと呼ばれています。

前回の記事でサブミットを行い、現在「スコア 0.70639（順位6119/7175 = Top 85%）」です。

Kernel（Notebooks）って何？

Kaggleには各コンペごとにフォーラムがあり、コンペ参加者がコードを公開する場(Kernel)、議論する場(Discussion)があります。

Kernelはクラウド上で計算や可視化のコードを実行できる環境です。

Kernelは分析のコードを共有場所にもなっており、公開されたものは他の人も見ることができます。

Kaggleにおいてはコンペに関する知見をプライベートにチーム外に共有することが禁止されており、コンペ参加者が平等にその知見に触れられるように、知見を共有しなければならないルールがあります。

そのため、参加しているコンペに関して、他の参加者が公開した知見を知りたい場合には、基本的にKernelおよびDiscussionを見ておけばよいようです。

なお、Kernelには、計算時間やメモリに制限があります。

9時間の実行時間
20GBのディスク容量
16GBの一時的なディスク容量

特に容量は気をつける必要があります。

20GB max private datasets (if you exceed this, either make your datasets public or delete unused datasets)

[引用] https://www.kaggle.com/docs/datasets#technical-specifications

どのKernelを見ていくか？

Voteの順序に並べてみました。

最初の3つはイントロダクションやEDAに関する記載ですが「LightGBM with Simple Features」は明らかに戦略が記載されてそうなタイトルです。

ページを開いてみると「スコア 0.79070」と書いてあります。

多くの参加者のスコアが「0.8~0.79の間」だという事を考えると、明らかにこちらのKernelを参照しており、これをベースにスクリプトを改造しているようです。

[引用] ＜実践＞はじめてのKaggle体験記

私の場合は、写経するだけでスコアが一気にアップします。

ちなみに、各レベルに対するスコアとランキングを一つ一つ確認しながら並べてみました。

レベル	スコア	ランキング
賞金獲得	0.80511	3/7175 (上位 3名)
金メダル	0.80110	24/7175 (top 0.3%)
銀メダル	0.79602	359/7175 (top 5%)
銅メダル	0.79449	719/7175 (top 10%)
サンプル	0.79070	2870/7175 (top 40%)

このコンペは「0.001」の世界を争っていたようです。

「LightGBM with Simple Features」は何をやっているのか？

358行という長さの中で、一体何をしているのでしょうか？Pythonの書き方もよく分かってないので他人のコードは勉強になります。

実行時間を計測する

Kaggleで実行時間に制限のあるコンペがあるので、withとcontextmanagerで実行時間を計測しているようです。

@contextmanager
def timer(title):
    t0 = time.time()
    yield
    print("{} - done in {:.0f}s".format(title, time.time() - t0))

with timer('説明'):
    (処理)

@contextmanager

def timer(title):

t0 = time.time()

yield

print("{} - done in {:.0f}s".format(title, time.time() - t0))

with timer('説明'):

(処理)

コンテキストマネージャ(context manager) とは、 with 文の実行時にランタイムコンテキストを定義するオブジェクトです。

今までTime関数呼んで差分を求めて時間を測定していましたしたが、Kaggleではこちらが一般的とのことです。

各種CSVを読み込む

このコンペは複数のCSVが用意されていました。

    df = application_train_test(num_rows)
    with timer("Process bureau and bureau_balance"):
        bureau = bureau_and_balance(num_rows)
        print("Bureau df shape:", bureau.shape)
        df = df.join(bureau, how='left', on='SK_ID_CURR')
    with timer("Process previous_applications"):
        prev = previous_applications(num_rows)
        print("Previous applications df shape:", prev.shape)
        df = df.join(prev, how='left', on='SK_ID_CURR')
     ...（省略）

df = application_train_test(num_rows)

with timer("Process bureau and bureau_balance"):

bureau = bureau_and_balance(num_rows)

print("Bureau df shape:", bureau.shape)

df = df.join(bureau, how='left', on='SK_ID_CURR')

with timer("Process previous_applications"):

prev = previous_applications(num_rows)

print("Previous applications df shape:", prev.shape)

df = df.join(prev, how='left', on='SK_ID_CURR')

...（省略）

それらを一つ一つ読み込み、前処理を行い結合しています。

前処理は何をしているか？

グルーピングし統計量を算出する

このコンペでは、複数のデータが提供されています。

複数のデータは「SK_ID_CURR」というキーを使って、接続されています。

各データを合わせて一つの表を作ろうとしています。

また、重複するIDのカラムは集計して計算処理を行ったあとに合成しているようです。

サンプルを使って説明します。次のようなテーブルが存在するとします。

import pandas as pd 
import numpy as np
df = pd.DataFrame({'A': [1, 1, 2, 2, 3, 3, 4, 5, 5, 5],
                   'B': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
                   'C': np.random.randn(10)})
df

import pandas as pd

import numpy as np

df = pd.DataFrame({'A': [1, 1, 2, 2, 3, 3, 4, 5, 5, 5],

'B': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],

'C': np.random.randn(10)})

これに対して、AのIDをユニークにして残りのデータを min、 max、 sum で集計して出力してみます。

Pandasのデータをさまざまなかたちで集計する関数.agg()を使います。

df.groupby('A').agg(['min', 'max', 'sum'])

1	df.groupby('A').agg(['min', 'max', 'sum'])

これと同じ処理を行っている部分が次のコードです。

    pos = pd.read_csv('./POS_CASH_balance.csv', nrows = num_rows)
    pos, cat_cols = one_hot_encoder(pos, nan_as_category= True)
    # Features
    aggregations = {
        'MONTHS_BALANCE': ['max', 'mean', 'size'],
        'SK_DPD': ['max', 'mean'],
        'SK_DPD_DEF': ['max', 'mean']
    }
    for cat in cat_cols:
        aggregations[cat] = ['mean']
    
    pos_agg = pos.groupby('SK_ID_CURR').agg(aggregations)
    pos_agg.columns = pd.Index(['POS_' + e[0] + "_" + e[1].upper() for e in pos_agg.columns.tolist()])

pos = pd.read_csv('./POS_CASH_balance.csv', nrows = num_rows)

pos, cat_cols = one_hot_encoder(pos, nan_as_category= True)

# Features

aggregations = {

'MONTHS_BALANCE': ['max', 'mean', 'size'],

'SK_DPD': ['max', 'mean'],

'SK_DPD_DEF': ['max', 'mean']

}

for cat in cat_cols:

aggregations[cat] = ['mean']

pos_agg = pos.groupby('SK_ID_CURR').agg(aggregations)

pos_agg.columns = pd.Index(['POS_' + e[0] + "_" + e[1].upper() for e in pos_agg.columns.tolist()])

ほとんどの機械学習アルゴリズムを使うとき、特徴量の数は固定でないといけません。

ユーザー1は購買履歴が3行、ユーザー2は購買履歴が10行・・・のように、各ユーザーごとにデータの特徴量が違うと都合が悪いので、集計を全部の数値項目に対して行っています。

新しく特徴量を生成する

元の特徴量をもとに新しく特徴量を生成しているようです。

# Some simple new features (percentages)
df['DAYS_EMPLOYED_PERC'] = df['DAYS_EMPLOYED'] / df['DAYS_BIRTH']
df['INCOME_CREDIT_PERC'] = df['AMT_INCOME_TOTAL'] / df['AMT_CREDIT']
df['INCOME_PER_PERSON'] = df['AMT_INCOME_TOTAL'] / df['CNT_FAM_MEMBERS']
df['ANNUITY_INCOME_PERC'] = df['AMT_ANNUITY'] / df['AMT_INCOME_TOTAL']
df['PAYMENT_RATE'] = df['AMT_ANNUITY'] / df['AMT_CREDIT']

# Some simple new features (percentages)

df['DAYS_EMPLOYED_PERC'] = df['DAYS_EMPLOYED'] / df['DAYS_BIRTH']

df['INCOME_CREDIT_PERC'] = df['AMT_INCOME_TOTAL'] / df['AMT_CREDIT']

df['INCOME_PER_PERSON'] = df['AMT_INCOME_TOTAL'] / df['CNT_FAM_MEMBERS']

df['ANNUITY_INCOME_PERC'] = df['AMT_ANNUITY'] / df['AMT_INCOME_TOTAL']

df['PAYMENT_RATE'] = df['AMT_ANNUITY'] / df['AMT_CREDIT']

このような特徴量を作成するには、その業界特有の知識（＝ドメイン知識）が必要です。

なので、これはそのまま拝借します。

カテゴリカル変数を数値に変える

# Categorical features with Binary encode (0 or 1; two categories)
for bin_feature in ['CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY']:
    df[bin_feature], uniques = pd.factorize(df[bin_feature])

# Categorical features with Binary encode (0 or 1; two categories)

for bin_feature in ['CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY']:

df[bin_feature], uniques = pd.factorize(df[bin_feature])

「pd.factorize」を利用すると、カテゴリ変数をユニークな数値に変換してくれます。

引数にはシーケンス（list、Series）を渡します。

すると、カテゴリ変数を数値に変換したndarrayが返ってくるのでそれを元のデータフレームに戻します。

「uniques」にはユニークなラベルが入っています。

これをget_indexerを使うことで別のデータフレームのカテゴリ変数を同じ数値で変換することができます。

カテゴリデータを one-hot 表現に変換する

「pd.factorize」を利用すると、例えば「A 型から O 型への距離は A 型から B 型への距離の 3 倍である」というような関係だと勘違いすることがあります。、

このため、カテゴリ変数（カテゴリカルデータ、質的データ）をダミー変数（one-hot 表現）に変換するために「get_dummies」も利用されています。

# One-hot encoding for categorical columns with get_dummies
def one_hot_encoder(df, nan_as_category = True):
    original_columns = list(df.columns)
    categorical_columns = [col for col in df.columns if df[col].dtype == 'object']
    df = pd.get_dummies(df, columns= categorical_columns, dummy_na= nan_as_category)
    new_columns = [c for c in df.columns if c not in original_columns]
    return df, new_columns

# Categorical features with One-Hot encode
df, cat_cols = one_hot_encoder(df, nan_as_category)

# One-hot encoding for categorical columns with get_dummies

def one_hot_encoder(df, nan_as_category = True):

original_columns = list(df.columns)

categorical_columns = [col for col in df.columns if df[col].dtype == 'object']

df = pd.get_dummies(df, columns= categorical_columns, dummy_na= nan_as_category)

new_columns = [c for c in df.columns if c not in original_columns]

return df, new_columns

# Categorical features with One-Hot encode

df, cat_cols = one_hot_encoder(df, nan_as_category)

学習モデル構築では何をしているか？

K-分割交差検証 (k-fold cross-validation）を利用する

「# LightGBM GBDT with KFold or Stratified KFold」と書いてあります。

    # Cross validation model
    if stratified:
        folds = StratifiedKFold(n_splits= num_folds, shuffle=True, random_state=1001)
    else:
        folds = KFold(n_splits= num_folds, shuffle=True, random_state=1001)

# Cross validation model

if stratified:

folds = StratifiedKFold(n_splits= num_folds, shuffle=True, random_state=1001)

else:

folds = KFold(n_splits= num_folds, shuffle=True, random_state=1001)

今まで何度か「trai_test_split」関数で訓練セットとテストセットを分割する処理をしてきました。

「train_test_split」関数はデータをランダムに分割するので、クラス分類が難しいデータが訓練データに入り、簡単なデータがテストデータに入った場合評価精度はとても高くなってしまいます。

交差検証（Cross validation）はより正確な評価精度を得るために利用されます。

このサンプルでは、2つの交差検証手法である「k分割交差検証(k-fold cross-validation)」と「層化k分割交差検証(stratified-fold cross-validation)」を切り替えるような実装となっています。

【メリット】train_test_split関数を活用した場合に比べて、汎化性のある評価精度を得ることができる
【デメリット】分割したk個のモデルを訓練するため、単純な分割よりも計算コストがかかる

ちなみに「k分割交差検証」と「層化k分割交差検証」の活用用途は以下の通りです。

k分割交差検証（KFold）：予測問題
層化k分割交差検証（StratifiedKFold）：分類問題

ベイズ最適化によるハイパーパラメータ探索をする

LightGBMのパラメータが細かく指定されており、コメントに「Bayesian optimization」で発見したパラメータと書いてあります。

# LightGBM parameters found by Bayesian optimization
clf = LGBMClassifier(
   nthread=4,
   n_estimators=10000,
   learning_rate=0.02,
   num_leaves=34,
   colsample_bytree=0.9497036,
   subsample=0.8715623,
   max_depth=8,
   reg_alpha=0.041545473,
   reg_lambda=0.0735294,
   min_split_gain=0.0222415,
   min_child_weight=39.3259775,
   silent=-1,
   verbose=-1, )

# LightGBM parameters found by Bayesian optimization

clf = LGBMClassifier(

nthread=4,

n_estimators=10000,

learning_rate=0.02,

num_leaves=34,

colsample_bytree=0.9497036,

subsample=0.8715623,

max_depth=8,

reg_alpha=0.041545473,

reg_lambda=0.0735294,

min_split_gain=0.0222415,

min_child_weight=39.3259775,

silent=-1,

verbose=-1, )

従来、ハイパーパラメータの探索は、grid searchなどで行うことが常套手段でしたが、時間がかかりすぎるという問題がありました。

そこで、もう少し効率良くベストなハイパーパラメータを探索する方法として「ベイズで最適化する手法」が提案されています。

KaggleのKernelでは、「parameters found by Bayesian optimization」というフレーズがよく出てくるそうなので、覚えておいて損はありません。

また今度、自分でも実装してみます。

AUC (Area Under the ROC Curve)で指標の評価

今までは、機械学習の分類問題などの評価指標として混同行列 (Confusion matrix)を使っていました。

このサンプルでは「ROC-AUC」が使われています。

ただ、正例が極端に少ないデータだと、混同行列では正しく判定できないことがあります。

AUCとは、ROC曲線が描いた線を元に計算される評価指標です。

ROC曲線とは、スコアが「0.999999」以上のみを陽性と見なすようなという厳しい条件においても、陽性を正しく分類できます。

・・・・こちらもよく分かりません。

Scikit-learnでAUCを計算するには、roc_auc_score()に、正解ラベルと予測スコアを渡すとAUCを計算してくれます。

feature_importance_df = pd.concat([feature_importance_df, fold_importance_df], axis=0)
print('Fold %2d AUC : %.6f' % (n_fold + 1, roc_auc_score(valid_y, oof_preds[valid_idx])))

1 2	feature_importance_df = pd.concat([feature_importance_df, fold_importance_df], axis=0) print('Fold %2d AUC : %.6f' % (n_fold + 1, roc_auc_score(valid_y, oof_preds[valid_idx])))

必要箇所をコピーして実行してみる

LightGBMで実行エラー

LightGBMで実行エラーが発生しました。

LightGBMError: Do not support special JSON characters in feature name.

1	LightGBMError: Do not support special JSON characters in feature name.

理由は分かりませんがググって次のように修正しました。

df.columns = ["".join (c if c.isalnum() else "_" for c in str(x)) for x in df.columns]

1	df.columns = ["".join (c if c.isalnum() else "_" for c in str(x)) for x in df.columns]

その結果、実行できました。

CatBoostで実行エラー＆実行

CatBoostはErrorが発生しました。因みに、LightGBMではErrorは発生しません。

CatBoostError: c:/goagent/pipelines/buildmaster/catboost.git/catboost/libs/data/model_dataset_compatibility.cpp:236:
Feature FONDKAPREMONT_MODE_not specified from pool must be FONDKAPREMONT_MODE_not_specified.

1 2	CatBoostError: c:/goagent/pipelines/buildmaster/catboost.git/catboost/libs/data/model_dataset_compatibility.cpp:236: Feature FONDKAPREMONT_MODE_not specified from pool must be FONDKAPREMONT_MODE_not_specified.

“FONDKAPREMONT_MODE_not specified” という文字列を”FONDKAPREMONT_MODE_not_specified”にしろというエラーです。

分かっているなら、自動的に変換してくれたらよいのに・・・。

修正すると、次から次へとエラーが表示されました。

CatBoostError: c:/goagent/pipelines/buildmaster/catboost.git/catboost/libs/data/model_dataset_compatibility.cpp:236:
Feature NAME_EDUCATION_TYPE_Secondary_/_secondary_special from pool must be NAME_EDUCATION_TYPE_Secondary___secondary_special.

CatBoostError: c:/goagent/pipelines/buildmaster/catboost.git/catboost/libs/data/model_dataset_compatibility.cpp:236:
Feature NAME_HOUSING_TYPE_Co-op_apartment from pool must be NAME_HOUSING_TYPE_Co_op_apartment.

CatBoostError: c:/goagent/pipelines/buildmaster/catboost.git/catboost/libs/data/model_dataset_compatibility.cpp:236:
Feature NAME_TYPE_SUITE_Spouse,_partner from pool must be NAME_TYPE_SUITE_Spouse__partner.

CatBoostError: c:/goagent/pipelines/buildmaster/catboost.git/catboost/libs/data/model_dataset_compatibility.cpp:236:
Feature ORGANIZATION_TYPE_Industry:_type_1 from pool must be ORGANIZATION_TYPE_Industry__type_1.

CatBoostError: c:/goagent/pipelines/buildmaster/catboost.git/catboost/libs/data/model_dataset_compatibility.cpp:236:
Feature PREV_CHANNEL_TYPE_AP+_(Cash_loan)_MEAN from pool must be PREV_CHANNEL_TYPE_AP___Cash_loan__MEAN.