как перебрать список внутри серии - PullRequest
0 голосов
/ 18 марта 2019

У меня есть series, который содержит list внутри. Каждый list в series имеет разную длину. Причина в том, что у меня изначально было string внутри series, а затем я применил функцию nltk word_tokenize().

Я пытался использовать функции apply() lambda, но безуспешно. Например, чтобы посчитать частоту уникальных слов я попытался:

summary_word_frequency = df.summary_word_tokens.apply(lambda x: [x.value_counts() for x in df.summary_word_tokens])

Некоторые сведения о моих данных и их структуре:

В:

print(type(df.summary_word_tokens))
print(type(df.summary_word_tokens[0]))
print(type(df.summary_word_tokens[0][1]))

Из:

<class 'pandas.core.series.Series'>
<class 'list'>
<class 'str'>

В:

print(df.summary_word_tokens.shape)
print(df.summary_word_tokens[0])
print(df.summary_word_tokens[0][1])

Из:

(1000,)
['cake', 'type', 'is', 'cake', 'chocolate']
type

Моя цель состоит в том, чтобы иметь возможность перебирать все строки, так как я хочу, чтобы можно было передавать токены в алгоритм.

Или вы все порекомендовали бы другой способ токенизации / превращения списка в серию (так что это будет серия внутри серии)? И имеет ли значение то, как вы токенизируете, если проблема не контролируется?

Спасибо

...