Когда я использую SpaCy для определения стоп-слов, он не работает, если я использую en_core_web_lg
корпус, но он работает, когда я использую en_core_web_sm
. Это ошибка или я что-то не так делаю?
import spacy
nlp = spacy.load('en_core_web_lg')
doc = nlp(u'The cat ran over the hill and to my lap')
for word in doc:
print(f' {word} | {word.is_stop}')
Результат:
The | False
cat | False
ran | False
over | False
the | False
hill | False
and | False
to | False
my | False
lap | False
Однако, когда я изменяю эту строку, чтобы использовать en_core_web_sm
корпус, я получаю разные результаты:
nlp = spacy.load('en_core_web_sm')
The | False
cat | False
ran | False
over | True
the | True
hill | False
and | True
to | True
my | True
lap | False