固有表現抽出は、文章から「人名」「場所」「組織名」などの固有名詞や「日付」「時間」などの数値表現を抽出する処理です。
エンティティ分析と呼ばれることもあります。
固有表現抽出
固有表現抽出を行うソースコードは次のようになります。
[Google Colaboratory]
1 | import spacy |
固有表現はEntityクラスとして取得します。
Entityクラスの主なプロパティは以下の通りです
- ent.text
テキスト - ent.label_
ラベル - ent.start_char
開始位置 - ent.end_char
終了位置
実行結果は以下の通りです。
[実行結果]
15行目の固有表現抽出の強調表示を実行することで少しグラフィカルに表示され、テキストとラベルの関係が見やすくなっています。
次回は、Wikipediaを用いた固有表現抽出データセットでの学習を行います。