Я чищу столбец в моей data frame
Суммировании и пытаюсь сделать 3 вещи:
- Токенизация
- Леммантизация
Удалите стоп-слова
import spacy
nlp = spacy.load('en_core_web_sm', parser=False, entity=False)
df['Tokens'] = df.Sumcription.apply(lambda x: nlp(x))
spacy_stopwords = spacy.lang.en.stop_words.STOP_WORDS
spacy_stopwords.add('attach')
df['Lema_Token'] = df.Tokens.apply(lambda x: " ".join([token.lemma_ for token in x if token not in spacy_stopwords]))
Однако, когда я печатаю, например:
df.Lema_Token.iloc[8]
В выводе все еще есть слово присоединить: attach poster on the wall because it is cool
Почему не удаляется стоп-слово?
Я тоже пробовал это:
df['Lema_Token_Test'] = df.Tokens.apply(lambda x: [token.lemma_ for token in x if token not in spacy_stopwords])
Но str attach
все еще появляется.