У меня есть данные ниже, хранящиеся в виде серии (называемые data_counts ), показывающие слова в индексе и значения счетчиков в столбце «0».Серия содержит 30 тыс. Слов, однако я использую приведенное ниже в качестве примера:
Index | 0
the | 3425
American | 431
a | 213
I | 124
hilarious | 53
Mexican | 23
is | 2
. Я бы хотел преобразовать слова в индексе в нижний регистр и удалить стоп-слова, используя NLTK.Я видел несколько примеров того, как SO достигает этого, используя 'lambdas' (см. Пример ниже для информационного кадра), однако я хотел бы сделать это, запустив вместо этого функцию DEF (я новичок в Python, и это кажется мне самым простымПонимаю).
df['Index'] = df['Index'].apply(lambda stop_remove: [word.lower() for word in stop_remove.split() if word not in stopwords])
Большое спасибо заранее