Transformers(14) - 要約②学習データと検証データの作成

前回ダウンロードしたニュース記事から学習データ検証データを作成します。

学習データ・検証データの作成

前回取得したニュース記事は、output.tsvに出力されています。

このファイルから、学習データ(8割)と検証データ(2割)を作成します。

[Google Colaboratory]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import os
import pandas as pd

# データフレームの作成
df = pd.DataFrame(columns=['text', 'summary'])
with open('output.tsv') as f:
for line in f.readlines():
strs = line.split('\t')
df = df.append({'text':strs[3] , 'summary':strs[0]}, ignore_index=True)

# シャッフル
df = df.sample(frac=1)

# CSVファイルの保存
num = len(df)
df[:int(num*0.8)].to_csv('train.csv', sep=',', index=False)
df[int(num*0.8):].to_csv('dev.csv', sep=',', index=False)

処理が成功すると、以下のファイルが出力されます。

  • train.csv
    学習データ
  • dev.csv
    検証データ

必要ライブラリのインストール

次回ファインチューニングを行う前準備として、必要なライブラリをインストールしておきます。

[Google Colaboratory]

1
2
3
4
5
# ソースからのHuggingface Transformersのインストール
!git clone https://github.com/huggingface/transformers -b v4.4.2
!pip install -e transformers
!pip install fugashi[unidic-lite]
!pip install ipadic

メニューから「ランタイム → ランタイムを再起動」を選択し、Google Colaboratoryを再起動しておきます。

さらに以下のライブラリをインストールします。

[Google Colaboratory]

1
2
3
4
5
6
7
# Huggingface Datasetsのインストール
!pip install datasets==1.2.1

# 依存パッケージのインストール
!pip install rouge_score==0.0.4
!pip install sentencepiece==0.1.91

以上で、ライブラリのインストールが完了しました。

次回は、準備した学習データと検証データを使ってファインチューニングを行います。