Как использовать spacys, встроенный в лемматизатор, в просторный конвейер? - PullRequest
0 голосов
/ 27 января 2020

Я хочу использовать лемматизацию, но я не могу непосредственно увидеть в документации, как использовать встроенную лемматизацию Spacys в конвейере.

В документах для лемматизатора написано:

Инициализировать лемматизатор. Как правило, это происходит под капотом внутри spaCy, когда инициализируется подкласс Language и его Vocab.

Означает ли это, что процесс построения лемматизации является не упомянутой частью конвейера?

Это упоминается в документах как часть подзаголовка конвейера

enter image description here

в то время как в документах для использование конвейера есть только упоминание о "пользовательской лемматизации" и о том, как ее использовать.

enter image description here

Это все виды противоречивой информации.

1 Ответ

1 голос
/ 27 января 2020

Означает ли это, что процесс построения лемматизации является не упомянутой частью конвейера?

Просто да. Лемматизатор загружается при загрузке Language и Vocab.

Пример использования :

import spacy
nlp=spacy.load('en_core_web_sm')
doc= nlp(u"Apples and oranges are similar. Boots and hippos aren't.")
print('\n')
print("Token Attributes: \n", "token.text, token.pos_, token.tag_, token.dep_, token.lemma_")
for token in doc:
    # Print the text and the predicted part-of-speech tag
    print("{:<12}{:<12}{:<12}{:<12}{:<12}".format(token.text, token.pos_, token.tag_, token.dep_, token.lemma_))

Вывод :

Token Attributes: 
 token.text, token.pos_, token.tag_, token.dep_, token.lemma_
Apples      NOUN        NNS         nsubj       apple       
and         CCONJ       CC          cc          and         
oranges     NOUN        NNS         conj        orange      
are         AUX         VBP         ROOT        be          
similar     ADJ         JJ          acomp       similar     
.           PUNCT       .           punct       .           
Boots       NOUN        NNS         nsubj       boot        
and         CCONJ       CC          cc          and         
hippos      NOUN        NN          conj        hippos      
are         AUX         VBP         ROOT        be          
n't         PART        RB          neg         not         
.           PUNCT       .           punct       .      

Проверьте также этот поток , есть некоторая интересная информация относительно скорости лемматизации.

...