GiNZA(6) - 文節分割

10月 16, 2021

文節分割は、文章を文節ごとに分解する処理です。

文節分割

日本語は、文節で分割した方が解析しやすくなることがよくあります。

文節分割を行うソースコードは以下のようになります。

[Google Colaboratory]

import spacy
import ginza
nlp = spacy.load('ja_ginza')
doc = nlp('新橋でランチをご一緒しましょう。次の火曜日はどうですか。')

# 文節分割
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        print(span)

実行結果は以下の通りです。

[実行結果]

新橋で
ランチを
ご一緒しましょう。
次の
火曜日は
どうですか。

文節で分解することができました。

またspanをforでループすることにより、文節を分割したトークンを取得することができます。

[Google Colaboratory]

import spacy
import ginza
nlp = spacy.load('ja_ginza')
doc = nlp('新橋でランチをご一緒しましょう。次の火曜日はどうですか。')

# 文節分割+トークン化
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        for token in span:
            print(token)

実行結果は以下の通りです。

[実行結果]

新橋
で
ランチ
を
ご
一緒
し
ましょう
。
次
の
火曜日
は
どう
です
か
。

次回は、係り受け解析を行います。