文境界解析は、文章を文ごとに分解する処理です。
文の境界は「。」があるのでこれを検出すれば問題ないと思うかもしれませんが、「!」や「?」で区切ることもあります。
また、「彼は『本当ですか。』とつぶやいた。」というように会話文が含まれていることもあり、文境界解析は意外と難しい処理になります。
文境界解析
文境界解析を行うソースコードは次のようになります。
[Google Colaboratory]
1 | mport spacy |
実行結果は以下の通りです。
[実行結果]
1 | 新橋でランチをご一緒しましょう。 |
文ごとに分解することができました。
さらにspanをforでループすることにより、文を分割したトークンを取得することができます。
[Google Colaboratory]
1 | import spacy |
実行結果は以下の通りです。
[実行結果]
1 | 新橋 |
次回は、文節分割を行います。