У меня есть набор текстовых строк (A).Я могу разбить их на жетоны (B).Я хотел бы отбросить некоторые из токенов, чтобы в итоге я получил только слова (C).Я попытался:
from nltk.tokenize import word_tokenize
df = pd.DataFrame({'A': ["potato soup, 99", "2 tomato"]})
# Tokenise
df['B'] = df['A'] .apply(word_tokenize)
# Words only
def Words(Token):
if Token .isalpha():
return Token
df['C'] = df['B'] .apply(Words)
Но я получил ошибку:
AttributeError: у объекта 'list' нет атрибута 'isalpha'
Яприменяя функцию к спискам, но я хотел бы применить ее к вещам в списках.