前回ダウンロードしたニュース記事から学習データと検証データを作成します。
学習データ・検証データの作成
前回取得したニュース記事は、output.tsvに出力されています。
このファイルから、学習データ(8割)と検証データ(2割)を作成します。
[Google Colaboratory]
1 | import os |
処理が成功すると、以下のファイルが出力されます。
- train.csv
学習データ - dev.csv
検証データ
必要ライブラリのインストール
次回ファインチューニングを行う前準備として、必要なライブラリをインストールしておきます。
[Google Colaboratory]
1 | # ソースからのHuggingface Transformersのインストール |
メニューから「ランタイム → ランタイムを再起動」を選択し、Google Colaboratoryを再起動しておきます。
さらに以下のライブラリをインストールします。
[Google Colaboratory]
1 | # Huggingface Datasetsのインストール |
以上で、ライブラリのインストールが完了しました。
次回は、準備した学習データと検証データを使ってファインチューニングを行います。