基本統計量
Pandas には、統計の基本データとなる 基本統計量 を求めるメソッドがデータフレームに用意されています。
前々回記事で準備したCSVファイルをデータフレームに読み込んで、基本統計量 を求めます。
[Google Colaboratory]
1 | import pandas as pd |
平均
データフレームの各列の平均値は、meanメソッド で算出します。
[Google Colaboratory]
1 | df.mean() # 平均 |
[実行結果]
meanメソッド の戻り値は、pandas.Seriesクラスのオブジェクト である1次元のベクトルとなっているので、個々の結果を抽出するには、ブラケットの中に 対象の列名 を指定します。
[Google Colaboratory]
1 | m = df.mean() |
[実行結果]
中央値
中央値を求めるには medianメソッド を使います。
[Google Colaboratory]
1 | df.median() # 中央値 |
[実行結果]
分散
分散 を算出するには varメソッド を使用します。
デフォルトで算出されるのは 不偏分散 です。
[Google Colaboratory]
1 | df.var() # 不偏分散 |
[実行結果]
不偏推定量を用いない分散 を求める場合は、ddof=0 を指定します。
[Google Colaboratory]
1 | df.var(ddof=0) # 標本分散 |
[実行結果]
標準偏差
標準偏差 を求めるには、stdメソッド を使います。
デフォルトで算出されるのは不偏分散から求めた 不偏標準偏差 です。
[Google Colaboratory]
1 | df.std() # 不偏標準偏差 |
[実行結果]
不偏推定量を用いない標準偏差 を求める場合は、ddof=0 を指定します。
[Google Colaboratory]
1 | df.std(ddof=0) # 標本標準偏差 |
[実行結果]