Подсчитать токены по различным исходным текстам в столбце - PullRequest
0 голосов
/ 29 января 2019

как подсчитать общее количество « токенов » в столбце после использования nltk.word_tokenizer

from nltk.tokenize import word_tokenize

train['doc_text'].apply(word_tokenize)

Я попытался подсчитать значения, но это не работает, я думаю, потому чтоЯ имею дело со строками.

Есть более 18K строк, и, как и ожидалось, после выполнения word_tokenize в каждой строке есть отдельные слова.

Я хотел бы знать общее количество 'у меня есть жетоны в столбце.

1 Ответ

0 голосов
/ 29 января 2019

Вам нужно:

# create a new column to get count of tokens
df['count'] = df['text'].apply(lambda x: len(word_tokenize(x)))

# do summation on a column
total_tokens = df['count'].sum()
print(total_tokens)
...