Импорт словаря стоп-слов в python - PullRequest
0 голосов
/ 11 июня 2018

Как я могу импортировать определенный словарь стоп-слов (лист Excel) в Python и запустить его дополнительно в список стоп-слов nltk?В настоящее время мой раздел стоп-слов выглядит следующим образом:

# filter out stop words
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
words = [w for w in words if not w in stop_words]

Заранее спасибо!

1 Ответ

0 голосов
/ 13 июня 2018

Вы можете импортировать лист Excel, используя библиотеку pandas.В этом примере предполагается, что ваши стоп-слова расположены в первом столбце, по одному слову в строке.Затем создайте объединение nltk стоп-слов и ваших собственных стоп-слов:

import pandas as pd
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
# check pandas docs for more info on usage of read_excel
custom_words = pd.read_excel('your_file.xlsx', header=None, names=['mywords'])
# union of two sets
stop_words = stop_words | set(custom_words['mywords'])
words = [w for w in words if not w in stop_words]
...