データをさまざまな軸・水準で区切り、層別にすることによって意味づけされた層の特徴を理解することができるようになります。
タイタニックのデータセットの場合、性別と生存率の関係を分析する際、男女別→客室ランク別といった層に分けて分析することで女性のファーストクラス、セカンドクラスの乗客が生存しやすいといった特徴がわかるようになります。
スライシング
タイタニックデータを読み込みます。
1 | import pandas as pd |
男女別にグループ化して、平均生存率を確認します。
1 | titanic.groupby('sex').mean() |
![](/img/kaggle/60.png)
女性の生存率が74%、男性の生存率が19%と女性の生存率がかなり高いこと確認できます。
さらに客室ランク別にグループ化して、平均生存率を確認します。
1 | titanic.groupby(['sex', 'class']).mean() |
![](/img/kaggle/61.png)
ファーストクラスとセカンドクラスの女性が生存率90%以上でとても高いことが確認できました。
(実行環境としてGoogleさんのColaboratoryを使用ています。)