Я хочу удалить бессмысленные слова в моем наборе данных.
Я пытался, что я видел StackOverflow что-то вроде этого:
import nltk
words = set(nltk.corpus.words.words())
sent = "Io andiamo to the beach with my amico."
" ".join(w for w in nltk.wordpunct_tokenize(sent) \
if w.lower() in words or not w.isalpha())
Но теперь, когда у меня есть фрейм данных, как я могу его повторитьпо всему столбцу.
Я пробовал что-то вроде этого:
import nltk
words = set(nltk.corpus.words.words())
sent = df['Chats']
df['Chats'] = df['Chats'].apply(lambda w:" ".join(w for w in
nltk.wordpunct_tokenize(sent) \
if w.lower() in words or not w.isalpha()))
Но я получаю ошибку TypeError: ожидаемая строка или байтовоподобный объект