時系列のデータ推移を分析するために折れ線グラフを使用します。
横軸には時間、縦軸には何らかの数値を表示し、時間の経過によって数値がどのように変化するかを確認します。
データの読み込み
今回はフライトのデータセットを読み込みます。
1 | import seaborn as sns |
月ごとの乗客数データであることが分かります。
折れ線グラフの表示
まずは年ごとの乗客数を折れ線グラフで表示します。
1 | sns.lineplot(data=flights, x='year', y='passengers') |
真ん中の折れ線が平均値で、エリア表示されているのが信頼区間(デフォルト95%)です。
(「95%信頼区間」とは、母平均が95%の確率でその範囲にあるということを表しています。)
年々乗客数が増えていることが確認できます。
次に1950年の乗客数を月ごとに表示します。
1 | ax = sns.lineplot(data=flights[flights.year==1950], x='month', y='passengers') |
7、8月に乗客数が多く、11月は乗客数が少ないことが確認できます。
複数のデータを並べて表示することも可能です。
1958年以降の乗客数を月ごとに表示してみます。
1 | ax = sns.lineplot(data=flights[flights.year>1957], x='month', y='passengers', hue='year') |
各月ごとにみても、年々乗客数が増えているという事が見てとれます。
(実行環境としてGoogleさんのColaboratoryを使用ています。)
次回は、相関分析を行います。