Kaggle(4) - 四分位範囲による外れ値の判定

四分位範囲を使って外れ値を判断してみます。

四分位範囲とはデータを昇順にソートした状態で、25%~75%に位置にある値のことです。

この四分位範囲を1.5倍した値を、上限値・下限値として外れ値の判断基準とします。

(実行環境としてGoogleさんのColaboratoryを使用します。)

タイタニック データセットの読み込み

まずタイタニックのデータセットを読み込みます。

1
2
3
4
import seaborn as sns
from matplotlib import pyplot as plt
sns.set(style='darkgrid')
titanic = sns.load_dataset('titanic')

箱ひげ図の表示

四分位範囲による外れ値の判定は、seabornの箱ひげ図を使って確認することができます。

1
2
plt.figure(figsize=(10, 8))
sns.boxplot(data=titanic, x='pclass', y='age')

箱ひげ図は2変数の間の関係を見るので、変数によって外れ値の判断が異なります。

上の箱ひげ図では、客室ランクが2の場合は約55歳以上が外れ値となりますが、客室ランクが3の場合は約50歳以上が外れ値となります。

客室ランク以外の変数との関連をみていくとまた違った外れ値の判断基準がでてくることになります。

そのため四分位範囲による判断は目安程度と考えた方がよいかもしれません。

次回は、上位・下位n%によるクリッピングを行います。