Kaggle(2) - 統計量の算出とヒストグラム(度数分布表)の表示

統計量の算出とヒストグラム(度数分布表)の表示を試してみます。

実行環境としてGoogleさんのColaboratoryを使用します。

データの読み込み

まずは前回と同じようにタイタニックのデータセットを読み込みます。

1
2
3
4
5
6
7
8
9
import pandas as pd
import seaborn as sns
pd.options.display.max_colwidth = 2

# データ読み込み
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/raw/titanic.csv'
titanic = pd.read_csv(url)

titanic.head()

統計量の算出

統計量の算出を行います。describe関数を使用します。

1
2
# 統計量の算出
titanic.describe()

データの意味は次の通りです。

名称意味
count要素の個数
mean平均
std標準偏差
min最小値
25%1/4分位数
50%中央値
75%3/4分位数
max最大値

ヒストグラム(度数分布表)の表示

年齢データ(age)のヒストグラム(度数分布表)を表示します。distplot関数を使用します。

1
2
# ヒストグラム表示
sns.distplot(titanic.age)

次回は、外れ値の判定を行います。