Почему прописанные числа ниже двадцати считаются стоп-словами в Spacy? - PullRequest
0 голосов
/ 10 февраля 2020

Спейси считает прописные числа ниже двадцати, такие как «пять» или «одиннадцать», стоп-словами, также он считает «двадцать», «тридцать, ...« шестьдесят »тоже стоп-словами. причина этого в том, что цифры - важная информация, которой мы не хотим распоряжаться?

1 Ответ

0 голосов
/ 24 февраля 2020

Стоп-слова во многом зависят от вашей задачи, поэтому вы можете рассматривать список, предоставленный spacy, как одно предложение, но вам часто захочется его настроить.

import spacy
nlp = spacy.load('en')
assert nlp.vocab["eleven"].is_stop == True
# remove 'eleven' as a stop word
nlp.vocab["eleven"].is_stop = False
assert nlp.vocab["eleven"].is_stop == False
...