Kaggle(48) - タイタニック生存予測 - 答え合わせ

3月 26, 2021

タイタニック生存予測のとにかく正解率の高いノートブックを探していたら１００％のものが見つかりました。

タイタニック生存予測の答え

妙にソースが少ないと思ったら、生存結果がすべて含まれているCSVファイルをダウンロードして、名前で突き合わせているだけでした。。。

ズルイとは思いますが、参考までに実行・提出してみました。

タイタニック生存予測の答え

全体の処理は以下のようになります。

9～14行目のgithubからのダウンロードがエラーになったので、手動でダウンロードしKaggleノートブックにアップロードして、ファイル読み込みを行いました。(16行目)

[ソース]

import numpy as np
import pandas as pd

import os
import re
import warnings
print(os.listdir("../input"))

#import io
#import requests

# url="https://github.com/thisisjasonjafari/my-datascientise-handcode/raw/master/005-datavisualization/titanic.csv"
# s=requests.get(url).content
#c=pd.read_csv(io.StringIO(s.decode('utf-8')))
# 上記処理でダウンロードできなかったため手動ダウンロードしファイル読み込み
c=pd.read_csv('../input/githubtitanic/titanic.csv')

test_data_with_labels = c
test_data = pd.read_csv('../input/titanic/test.csv')

test_data_with_labels.head()

test_data.head()

# ワーニングが表示されないように
warnings.filterwarnings('ignore')

# 名前からダブルクォーテーションを除外してるだけ
for i, name in enumerate(test_data_with_labels['name']):
    if '"' in name:
        test_data_with_labels['name'][i] = re.sub('"', '', name)
        
# 名前からダブルクォーテーションを除外してるだけ
for i, name in enumerate(test_data['Name']):
    if '"' in name:
        test_data['Name'][i] = re.sub('"', '', name)

survived = []

for name in test_data['Name']:
    # values[-1]は同姓同名の場合、最後にヒットしたほうの生存結果を取得している。
    survived.append(int(test_data_with_labels.loc[test_data_with_labels['name'] == name]['survived'].values[-1]))

submission = pd.read_csv('../input/titanic/gender_submission.csv')
submission['Survived'] = survived
submission.to_csv('submission.csv', index=False)

[結果]

正解率100%となりました。当たり前ですね。