機械学習に関する用語
用語 | 英語 | 説明 |
---|---|---|
教師あり学習 | Supervised Learning | 正解となるデータをもとに機械学習を行う手法。データの分類や数値の予測などに使用する。 |
教師なし学習 | Unsupervised Learning | 正解が用意されていないデータに対して行う手法。データのクラスタリングなどに使用する。 |
強化学習 | Reinforcement Learning | ある環境の中での行動に対して報酬を与えて学習させる手法。ゲームや自動運転などにおいて、振る舞いを最適化するために使用する。 |
分類 | Classification | 教師あり学習でデータがどのグループに属するか(ラベル)を予測すること。 |
回帰 | Rgression | 教師あり学習でデータに対して数値を予測すること。 |
クラスタリング | Clustering | 教師なし学習で、似ているデータをグループ化すること。分類とは異なり正解が存在しない。 |
アルゴリズム | Algorithm | 機械学習ではそれぞれの機械学習を行うための手順のことを指す。主要なアルゴリズムはscikit-learnで用意されている。 |
アンサンブル学習 | Ensemble Learning | 複数のモデルの結果を組み合わせて多数決などで決定する手法。 |
ラベル | Label | 分類で、データの正解を表す値。 |
モデル | Model | 機械学習アルゴリズムが作成した予測を行うためのパラメータの集まり。予測プログラムで使用する。 |
教師あり学習の主な手法
用語 | 英語 | 説明 |
---|---|---|
線形回帰 | Linear Regression | 回帰に使用するアルゴリズムの1つ。 |
ロジスティック回帰 | Logistic Regression | アルゴリズムの名前には回帰が付いているが、主に分類に使用するアルゴリズム。 |
サポートベクターマシン | Support Vector Machine : SVM | 分類、回帰に使用できるアルゴリズム。 |
決定木 | Decision Tree | データを分類するルールを定義して分類を行うアルゴリズム。 |
ランダムフォレスト | Random Forest | 複数の決定木の予測結果から、多数決で予測を行うアルゴリズム。アンサンブル学習の1つ。 |
精度に関する用語
用語 | 英語 | 説明 |
---|---|---|
学習データ | Data | 学習済みモデルを作成するための機械学習アルゴリズムの入力に使用するデータの集まり。あらかじめ用意したデータを学習データとテストデータに分割する。教師データ、訓練データともいう。 |
テストデータ | Test Data | モデルの精度評価を行うために使用するデータ。 |
混合行列 | Confusion Matrix | 分類の制度を計算するために予測と正解の組み合わせを集計した表。 |
陽性 | Positive | 分類で目的としているデータの持つ性質。 |
陰性 | Negative | 分類で目的としていないデータの持つ性質。 |
真陽性 | True Positive : TP | 陽性と予測して(Positive)、予測が当たった(True)データの性質。 |
偽陽性 | False Positive : FP | 陽性と予測して(Positive)、予測が外れた(False)データの性質。 |
偽陰性 | False Negative : FN | 陰性と予測して(Negative)、予測が外れた(False)データの性質。 |
真陰性 | True Negative : TN | 陰性と予測して(Negative)、予測が当たった(True)データの性質。 |
正解率 | Accuracy | 全体のうち予測当たった割合。(TP + TN) / (TP + FP + FN + TN) |
適合性 | Precision | 陽性と予測したうち実際に陽性だった割合。TP / (TP + FP) |
再現率 | Recall | 陽性のデータのうち、陽性と予測した割合。TP / (TP + FN) |
F値 | F-Value | 適合率と再現率のバランスをとった値。適合率と再現率の調和平均で求める。 |