教師あり学習の回帰を行います。
今回は、回帰の問題を解くのに適したボストンの住宅価格データを準備します。
ボストンの住宅価格データは、機械学習のライブラリであるscikit-learnにサンプルデータとして含まれています。
ボストンの住宅価格が目的変数となっていて、それに寄与する犯罪率、平均部屋数等が説明変数として用意されています。
ボストンの住宅価格データの読み込み
ボストンの住宅価格データを読みこむソースコードは下記のようになります。
[Google Colaboratory]
1 | from sklearn.datasets import load_boston |
[実行結果]
13種類の説明変数と1種類の目的変数がそれぞれ506件あることが確認できました。
データの内容を下記の一覧にまとめます。
カラム名 | 内容 |
---|---|
CRIM | 犯罪率 |
ZN | 25,000平方フィート以上の住宅区画割合 |
INDUS | 非小売業種の土地面積割合 |
CHAS | チャールズ川沿いかどうか |
NOX | 窒素酸化物濃度 |
RM | 平均部屋数 |
AGE | 1940年より前の建物割合 |
DIS | 5つのボストン雇用施設への重み付き距離 |
RAD | 高速道路へのアクセス容易性 |
TAX | 10,000ドルあたりの不動産税率 |
PTRATIO | 生徒/教師の割合 |
B | 黒人割合 |
LSTAT | 低所得者割合 |
MEDV | 住宅価格(中央値)※目的変数 |
データフレーム化
読み込んだボストン住宅価格データをデータフレームに格納します。
目的変数はMEDVという項目名にしています。
[Google Colaboratory]
1 | import pandas as pd |
[実行結果]
次回は、データフレーム化したデータを使ってデータの概要を確認します。