NLTK стоп-слова языки - PullRequest
0 голосов
/ 21 февраля 2019

Я работаю с несколькими языками, и для некоторых из них у меня есть список стоп-слов в NLTK, но не для других.

Как я могу проверить из кода, если язык доступен в nltk.corpus.stopwords.words ("language")?

Я бы хотел сделать это без управления исключениями, когда данный язык не найден.

Примерно так:

if "language" in nltk.corpus.stopwords.languages:
   sw = nltk.corpus.stopwords.words("language")
else:
   sw = []
...

1 Ответ

0 голосов
/ 21 февраля 2019
from nltk.corpus import stopwords
stopwords.fileids()

выводит

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

и это, кажется, делает трюк?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...