要約を全4回に分けて説明していきます。
要約は、本文(長い文章)を要約(短い文章)に変換する処理です。
「livedoorニュースの3行要約データセット」を使って、要約の処理を確認していきます。
ニュース記事の一覧を取得
まずはニュース記事の公開年月、カテゴリ、記事IDがまとまっているCSVファイルをダウンロードします。
ダウンロード後にファイル名を変更します。
[Google Colaboratory]
1 | !wget https://raw.githubusercontent.com/KodairaTomonori/ThreeLineSummaryDataset/master/data/train.csv |
[実行結果]
1 | --2021-10-06 08:20:12-- https://raw.githubusercontent.com/KodairaTomonori/ThreeLineSummaryDataset/master/data/train.csv |
ニュース記事を取得
ニュース記事の一覧(CSVファイル)を元に、ニュース記事をダウンロードします。
beautiful soupというスクレイピング用のライブラリを使って、ニュース記事の取得を行います。
(サーバに負荷がかからないように10秒間に1記事を取得するようにしています)
[Google Colaboratory]
1 | from urllib.request import urlopen |
[実行結果]
1 | index: 0 |
以上で、ニュース記事のダウンロードが完了しました。
output.tsvというファイルにニュース記事が出力されています。
次回は、ダウンロードしたニュース記事を学習データと検証データに分けます。