レンマ化は、トークンを辞書の見出し語に変換する処理です。
トークンを辞書の見出し語にそろえることで、異なる表記でも同じ単語であることを判別できるようになります。
レンマ化
レンマ化を行うソースコードは以下のようになります。
[Google Colaboratory]
1 | import spacy |
実行結果は以下の通りです。
[実行結果]
1 | 新橋, 新橋 |
行きというトークンが、行くという見出し語に変換されています。
行くという単語であれば、辞書で確認できますね。
次回は、文境界解析を行います。