テキスト分類を2回に分けて説明していきます。
今回は、データセットをダウンロードし、そのデータから学習データと検証データを生成します。
データセットのダウンロード
まずlivedoor ニュースコーパスからニュース記事のデータセットをダウンロードします。
[Google Colaboratory]
1 | !wget https://www.rondhuit.com/download/ldcc-20140209.tar.gz |
[実行結果]
1 | --2021-10-01 20:42:32-- https://www.rondhuit.com/download/ldcc-20140209.tar.gz |
データセットの解凍
ダウンロードした圧縮ファイル(ldcc-20140209.tar.gz)を解凍します。
[Google Colaboratory]
1 | !tar xzvf ldcc-20140209.tar.gz |
textディレクトリが作成され、その中に各ジャンル別にニュース記事のテキストファイルがたくさん解凍されます。
学習データと検証データの生成
解凍したデータセットから、学習データ(dev.csv)と検証データ(train.csv)を生成します。
[Google Colaboratory]
1 | import os |
正常に処理が実行されると、学習データ(dev.csv)と検証データ(train.csv)が作成されます。
次回は、この学習データと検証データを使ってテキスト分類の学習と推論を行います。