「Kaggle」とは10万人以上のデータサイエンティストが参加するデータ分析コンペです。
コンペに参加するのに必要な分析手法を勉強していこう・・・とふと思いました。
実行環境としてGoogleさんのColaboratoryを使用します。
データの読み込み
まずはタイタニックのデータセットを読み込みます。
1 | import pandas as pd |

欠損値のカウント
欠損値をカウントしてパーセンテージを出力する関数を定義して、「cabin」列の欠損値の割合を求めます。
1 | # 欠損値をカウントして、パーセンテージを出力する |

列をまるごとごと削除
欠損値の割合が77.1%と多かったので、「cabin」列を丸ごと削除します。
1 | # Cabinを列ごと削除 |

次回は、統計量の算出とヒストグラム(度数分布表)の表示を行います。