Kaggle(12) - 単変数のデータ分析

ヒストグラムを使って単変数のデータ分析を行います。

ヒストグラムは度数分布表をグラフ化したもので、1つのデータの分布・傾向などを分析するために使用します。

ヒストグラムの表示

タイタニックのデータを読み込みます。

1
2
3
4
import seaborn as sns
from matplotlib import pyplot as plt
sns.set(style='darkgrid')
titanic = sns.load_dataset('titanic')

distplot関数を使って、タイタニック乗船客の年齢ごとの乗客数(密度:density)をヒストグラムで表示します。

密度(density)は、ヒストグラムの総面積を1としたときの割合となります。

1
sns.distplot(titanic.age)

縦棒の数はbinsオプションで指定することができます。

binsオプションを変更することによって、データ分布の見え方を変えることができます。

binsオプションに10を設定すると、大まかな分布を確認できるようになります。

1
sns.distplot(titanic.age, bins=10)

binsオプションに30を設定すると、細かな分布を確認できるようになります。

1
sns.distplot(titanic.age, bins=30)

性別でスライシングするとまた異なった特徴をみることができます。

1
2
3
4
# 性別で重ねて比較
g = sns.FacetGrid(titanic, hue='sex', height=5)
g.map(sns.distplot, 'age', kde=False)
g.add_legend()

各年齢層ごとに男性客がやや多いことが分かります。

(実行環境としてGoogleさんのColaboratoryを使用ています。)

次回は、変数間のデータ分析を行います。