Означает ли это, что процесс построения лемматизации является не упомянутой частью конвейера?
Просто да. Лемматизатор загружается при загрузке Language
и Vocab
.
Пример использования :
import spacy
nlp=spacy.load('en_core_web_sm')
doc= nlp(u"Apples and oranges are similar. Boots and hippos aren't.")
print('\n')
print("Token Attributes: \n", "token.text, token.pos_, token.tag_, token.dep_, token.lemma_")
for token in doc:
# Print the text and the predicted part-of-speech tag
print("{:<12}{:<12}{:<12}{:<12}{:<12}".format(token.text, token.pos_, token.tag_, token.dep_, token.lemma_))
Вывод :
Token Attributes:
token.text, token.pos_, token.tag_, token.dep_, token.lemma_
Apples NOUN NNS nsubj apple
and CCONJ CC cc and
oranges NOUN NNS conj orange
are AUX VBP ROOT be
similar ADJ JJ acomp similar
. PUNCT . punct .
Boots NOUN NNS nsubj boot
and CCONJ CC cc and
hippos NOUN NN conj hippos
are AUX VBP ROOT be
n't PART RB neg not
. PUNCT . punct .
Проверьте также этот поток , есть некоторая интересная информация относительно скорости лемматизации.