Pandas⑧ (基本統計量)

基本統計量

Pandas には、統計の基本データとなる 基本統計量 を求めるメソッドがデータフレームに用意されています。

前々回記事で準備したCSVファイルをデータフレームに読み込んで、基本統計量 を求めます。

[Google Colaboratory]

1
2
import pandas as pd
df = pd.read_csv('data1.csv') # CSVファイルの読み込み

平均

データフレームの各列の平均値は、meanメソッド で算出します。

[Google Colaboratory]

1
df.mean() # 平均

[実行結果]

meanメソッド の戻り値は、pandas.Seriesクラスのオブジェクト である1次元のベクトルとなっているので、個々の結果を抽出するには、ブラケットの中に 対象の列名 を指定します。

[Google Colaboratory]

1
2
m = df.mean()
m['最高気温']

[実行結果]

中央値

中央値を求めるには medianメソッド を使います。

[Google Colaboratory]

1
df.median() # 中央値

[実行結果]

分散

分散 を算出するには varメソッド を使用します。

デフォルトで算出されるのは 不偏分散 です。

[Google Colaboratory]

1
df.var()  # 不偏分散

[実行結果]

不偏推定量を用いない分散 を求める場合は、ddof=0 を指定します。

[Google Colaboratory]

1
df.var(ddof=0) # 標本分散

[実行結果]

標準偏差

標準偏差 を求めるには、stdメソッド を使います。

デフォルトで算出されるのは不偏分散から求めた 不偏標準偏差 です。

[Google Colaboratory]

1
df.std()          # 不偏標準偏差

[実行結果]

不偏推定量を用いない標準偏差 を求める場合は、ddof=0 を指定します。

[Google Colaboratory]

1
df.std(ddof=0)   # 標本標準偏差

[実行結果]