Question

У меня есть набор текстовых строк (A).Я могу разбить их на жетоны (B).Я хотел бы отбросить некоторые из токенов, чтобы в итоге я получил только слова (C).Я попытался:

from nltk.tokenize import word_tokenize

df = pd.DataFrame({'A': ["potato soup, 99", "2 tomato"]})

# Tokenise
df['B'] = df['A'] .apply(word_tokenize)

# Words only
def Words(Token):
    if Token .isalpha():
        return Token
df['C'] = df['B'] .apply(Words)

Но я получил ошибку:

AttributeError: у объекта 'list' нет атрибута 'isalpha'

Яприменяя функцию к спискам, но я хотел бы применить ее к вещам в списках.

A. Leistra · Answer 1 · 11 марта 2019

Использовать понимание списка:

df['C'] = df['B'].apply(lambda x: [y for y in x if y.isalpha()])

Применить функцию к столбцу списков данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Применить функцию к столбцу списков данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы