NLTK - пропущенные стоп-слова - английский - PullRequest
2 голосов
/ 20 мая 2019

Я только что скачал последнюю версию NLTK со всеми ее ресурсами.

Я вижу, could и would не указаны в качестве стоп-слов. Но should рассматривается как стоп-слово.

Это какая-то известная ошибка или ...?

In [7]: import nltk

In [8]: "shouldn't" in nltk.corpus.stopwords.words("english")
Out[8]: True

In [9]: "couldn't" in nltk.corpus.stopwords.words("english")
Out[9]: True

In [10]: "wouldn't" in nltk.corpus.stopwords.words("english")
Out[10]: True

In [11]: "should" in nltk.corpus.stopwords.words("english")
Out[11]: True

In [12]: "could" in nltk.corpus.stopwords.words("english")
Out[12]: False

In [13]: "would" in nltk.corpus.stopwords.words("english")
Out[13]: False

Ответы [ 2 ]

1 голос
/ 25 мая 2019

О, на самом деле это очень интересно!

Джоэл Нотман однажды просмотрел стоп-слова и нашел некоторые тревожные результаты. Смотри https://aclweb.org/anthology/papers/W/W18/W18-2502/

Согласитесь с Итаном МакКью, что это определенно что-то, что должно быть исправлено / исправлено путем включения его в систему отслеживания проблем github в NLTK.

1 голос
/ 21 мая 2019

Это не ошибка как таковая. Что является и что не считается стоп-словом, всегда будет немного нечетким. Люди, которые составили этот список, по какой-то причине пропустили «следует» - возможно, он обоснован, а может и нет - но независимо от того, сможете ли вы добавить его в корпус для своего собственного проекта и посмотреть, даст ли он лучшие результаты для вашего задача.

Несмотря на это, кажется, стоит поднять вопрос об их проблемах с github .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...