統計量の算出とヒストグラム(度数分布表)の表示を試してみます。
実行環境としてGoogleさんのColaboratoryを使用します。
データの読み込み
まずは前回と同じようにタイタニックのデータセットを読み込みます。
1 | import pandas as pd |
統計量の算出
統計量の算出を行います。describe関数を使用します。
1 | # 統計量の算出 |
データの意味は次の通りです。
| 名称 | 意味 |
|---|---|
| count | 要素の個数 |
| mean | 平均 |
| std | 標準偏差 |
| min | 最小値 |
| 25% | 1/4分位数 |
| 50% | 中央値 |
| 75% | 3/4分位数 |
| max | 最大値 |
ヒストグラム(度数分布表)の表示
年齢データ(age)のヒストグラム(度数分布表)を表示します。distplot関数を使用します。
1 | # ヒストグラム表示 |
次回は、外れ値の判定を行います。