Kaggle(15) - 時系列データの分析

時系列のデータ推移を分析するために折れ線グラフを使用します。

横軸には時間、縦軸には何らかの数値を表示し、時間の経過によって数値がどのように変化するかを確認します。

データの読み込み

今回はフライトのデータセットを読み込みます。

1
2
3
4
5
import seaborn as sns
from matplotlib import pyplot as plt
sns.set(style='darkgrid')
flights = sns.load_dataset('flights')
flights

月ごとの乗客数データであることが分かります。

折れ線グラフの表示

まずは年ごとの乗客数を折れ線グラフで表示します。

1
sns.lineplot(data=flights, x='year', y='passengers')

真ん中の折れ線が平均値で、エリア表示されているのが信頼区間(デフォルト95%)です。

(「95%信頼区間」とは、母平均が95%の確率でその範囲にあるということを表しています。)

年々乗客数が増えていることが確認できます。


次に1950年の乗客数を月ごとに表示します。

1
2
ax = sns.lineplot(data=flights[flights.year==1950], x='month', y='passengers')
ax.set_xticklabels(range(1, 13))

7、8月に乗客数が多く、11月は乗客数が少ないことが確認できます。


複数のデータを並べて表示することも可能です。

1958年以降の乗客数を月ごとに表示してみます。

1
2
ax = sns.lineplot(data=flights[flights.year>1957], x='month', y='passengers', hue='year')
ax.set_xticklabels(range(1, 13))

各月ごとにみても、年々乗客数が増えているという事が見てとれます。

(実行環境としてGoogleさんのColaboratoryを使用ています。)

次回は、相関分析を行います。