AutoML①(PyCaret)

AutoML

AutoMLを使うと、機械学習モデルを構築するために必要な以下の処理を非常に簡単に行うことができます。

  • データの前処理
  • 複数のアルゴリズムでのモデル構築
  • ハイパーパラメータチューニング
  • 精度評価
  • SHAPによるモデル解釈

PyCaret

PyCaretは、代表的な機械学習ライブラリ(scikit-learn、XgBoostなど)をラップしており、回帰、分類、クラスタリング、次元削減はもちろん、異常検知や自然言語処理にも対応可能なライブラリです。

さらに、機械学習の前処理モデルの比較もほとんど自動化でき、可視化プロットも豊富に用意され、SHAPの機能も含んでいます。

まずはPyCaretライブラリをインストールします。

[Google Colaboratory]

1
2
3
!pip install pycaret
from pycaret.utils import enable_colab
enable_colab()

2~3行目では、GoogleColab上でPyCaretを利用するために必要な関数を実行しています。

データセットの読み込み

回帰モデルを構築するために必要なボストンの住宅価格データセットを読み込みます。

[Google Colaboratory]

1
2
from pycaret.datasets import get_data 
boston_data_all = get_data("boston")

[実行結果]

次に、訓練データとテストデータを9:1の割合で分割します。

[Google Colaboratory]

1
2
3
4
5
boston_data = boston_data_all.sample(frac =0.90, random_state = 0).reset_index(drop=True)
boston_data_unseen = boston_data_all.drop(boston_data.index).reset_index(drop=True)
print("All Data: " + str(boston_data_all.shape))
print("Data for Modeling: " + str(boston_data.shape))
print("Unseen Data For Predictions: " + str(boston_data_unseen.shape))

[実行結果]

次回は、今回準備したPyCaretライブラリデータセットを使って、データ分析の前処理を自動的に行います。