GiNZA(3) - 形態素解析(品詞タグ付け)

品詞タグ付けは、トークンの品詞を判別する処理です。

品詞タグ付け

トークンごとの品詞を確認するコードは以下の通りです。

品詞タグとして2種類表示します。

  • SudachiPyの品詞タグ
  • Universal Dependenciesの品詞タグ

[Google Colaboratory]

1
2
3
4
5
6
7
8
9
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('新橋に行きます。')

for token in doc:
print(
token.text+', '+ # トークン
token.tag_+', '+ # SudachiPyの品詞タグ
token.pos_) # Universal Dependenciesの品詞タグ

実行結果は以下の通りです。

[実行結果]

1
2
3
4
5
新橋, 名詞-普通名詞-一般, NOUN
に, 助詞-格助詞, ADP
行き, 動詞-非自立可能, VERB
ます, 助動詞, AUX
。, 補助記号-句点, PUNCT

次回は、レンマ化を行います。