分類② (データ前処理)

モデル構築の下準備として、データの前処理を行います。

目的変数と説明変数に分割

まずデータを説明変数 X と目的変数 y に分けます。

[Google Colaboratory]

1
2
3
4
5
X= tg_df[["mean radius","mean texture"]]
y = tg_df["y"]

display(X.head())
display(y.head())

[実行結果]

訓練データとテストデータに分割

次に、データを訓練データ(70%)とテストデータ(30%)に分割します。

[Google Colaboratory]

1
2
3
4
5
6
7
8
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=0)

print(len(X_train))
display(X_train.head())
print(len(X_test))
display(X_test.head())

[実行結果]

スケーリング

最後に、データの尺度をそろえるためスケーリングを行います。

[Google Colaboratory]

1
2
3
4
5
6
7
8
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(X_train_scaled[:3])
print(X_test_scaled[:3])

[実行結果]

次回は、ロジスティック回帰モデルの構築を行います。