NLTK доступные языки для стоп-слов - PullRequest
0 голосов
/ 07 февраля 2019

Мне интересно, где я могу найти полный список поддерживаемых языков (и их ключей) для стоп-слов NLTK.

Я нахожу список в https://pypi.org/project/stop-words/, но он не содержитключи для каждой страны.Таким образом, не ясно, можете ли вы получить список, просто stopwords.words("Bulgarian").На самом деле, это приведет к ошибке.

Я проверил на сайте НЛТК и есть 4 документа, соответствующих "стоп-словам", но ни один из них не описывает это.https://www.nltk.org/search.html?q=stopwords&check_keywords=yes&area=default

И в их книге ничего не сказано: http://www.nltk.org/book/ch02.html#stopwords_index_term

Итак, вы знаете, где я могу найти список ключей?

1 Ответ

0 голосов
/ 07 февраля 2019

Сначала проверьте, скачали ли вы nltk пакетов.
Если нет, вы можете загрузить его, используя ниже:

import nltk
nltk.download()

После этого вы можете найти языковые файлы стоп-слов по следующему пути.

C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords

Поддерживается 21 язык (я установил nltk несколько дней назад, поэтому этот номер должен быть актуальным).Вы можете передать имя файла в качестве параметра в

nltk.corpus.stopwords.words('langauage')

...