Добавление пользовательских стоп-слов в список стоп-слов по умолчанию из nltk.corpus и удаление стоп-слов из ряда в кадре данных с использованием лямбды - PullRequest
0 голосов
/ 16 января 2020

У меня есть многоколонный фрейм данных с 41 000 строк тегов Flickr. Я хочу удалить все стоп-слова Engli sh только из столбца, оставив другие столбцы без изменений.

Это мой код, извлекающий список стоп-слов из nltk.corpus:

from nltk.corpus import stopwords
stopWordsListEng = stopwords.words("english")

, но Я хочу добавить дополнительные стоп-слова, о которых я могу думать:

according accordingly across act actually

Я не понял, как добавить это в существующий список стоп-слов.

и как я могу применить лямбду удалить стоп-слова только в одном столбце. Потому что я хочу, чтобы мой код был максимально простым.

Вот как выглядит мой столбец:

column1                        column2                                                 column3
some words from this column    i don't know actually what across to me accordingly     25,000

Я хочу, чтобы мой столбец выглядел так (более или менее) после того, как я удалить все стоп-слова:

column1                        column2                column3
some words from this column    don't know what to me  25,000

1 Ответ

2 голосов
/ 16 января 2020

вы можете добавить дополнительные стоп-слова к существующему, используя список extend

_new_stopwords_to_add = ['according', 'accordingly', 'across', 'act', 'actually']
stopWordsListEng.extend(_new_stopwords_to_add)

удалить стоп-слова из одного pandas столбца, используя только pandas .DataFrame.apply

df['column2'] = df['column2'].apply(lambda x: ' '.join([item for item in x.split() if item not in stopWordsListEng]))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...