回帰① (ボストン住宅価格データ)

教師あり学習の回帰を行います。

今回は、回帰の問題を解くのに適したボストンの住宅価格データを準備します。

ボストンの住宅価格データは、機械学習のライブラリであるscikit-learnにサンプルデータとして含まれています。

ボストンの住宅価格が目的変数となっていて、それに寄与する犯罪率、平均部屋数等が説明変数として用意されています。

ボストンの住宅価格データの読み込み

ボストンの住宅価格データを読みこむソースコードは下記のようになります。

[Google Colaboratory]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
from sklearn.datasets import load_boston
boston = load_boston()

print("説明変数")
print(f"{len(boston.data)}件")
print(boston.data[:5])

print("目的変数")
print(f"{len(boston.target)}件")
print(boston.target[:5])

print("変数名")
print(f"{len(boston.feature_names)}件")
print(boston.feature_names)

[実行結果]

13種類の説明変数と1種類の目的変数がそれぞれ506件あることが確認できました。

データの内容を下記の一覧にまとめます。

カラム名内容
CRIM犯罪率
ZN25,000平方フィート以上の住宅区画割合
INDUS非小売業種の土地面積割合
CHASチャールズ川沿いかどうか
NOX窒素酸化物濃度
RM平均部屋数
AGE1940年より前の建物割合
DIS5つのボストン雇用施設への重み付き距離
RAD高速道路へのアクセス容易性
TAX10,000ドルあたりの不動産税率
PTRATIO生徒/教師の割合
B黒人割合
LSTAT低所得者割合
MEDV住宅価格(中央値)※目的変数

データフレーム化

読み込んだボストン住宅価格データをデータフレームに格納します。

目的変数はMEDVという項目名にしています。

[Google Colaboratory]

1
2
3
4
5
import pandas as pd

df = pd.DataFrame(boston.data,columns=boston.feature_names)
df["MEDV"] = boston.target
display(df.head())

[実行結果]

次回は、データフレーム化したデータを使ってデータの概要を確認します。