クロスバリデーション（交差検証）

August 3, 2019

分類の検証を行う場合に、データ全体を何分割かして分割した回数分検証を行う方法です。
例えば５分割の場合、学習データを８割、検証データを２割に分割して検証し、さらに検証データをかえて実行・・・・といった感じに５回検証を行います。

[アヤメのデータをダウンロード]

1	!wget https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/data/iris.csv

[５分割でクロスバリデーション実行]

import pandas as pd
from sklearn import svm, metrics, model_selection

# アヤメデータを読み込む
csv = pd.read_csv('iris.csv')

# データとラベルに分割
data = csv[['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth']]
label = csv['Name']

# クロスバリデーション（交差検証）を行う
clf = svm.SVC()
score = model_selection.cross_val_score(clf, data, label, cv=5) # cv=5は5分割の意
print('各正解率', score)
print('正解率', score.mean())

[出力結果]

1 2	各正解率 [0.96666667 1. 0.96666667 0.96666667 1. ] 正解率 0.9800000000000001

５回分の検証結果が96%～100%、平均正解率も98%以上なので十分実用性がある・・・ということになると思います。。

(Google Colaboratoryで動作確認しています。)