У меня есть series
, который содержит list
внутри. Каждый list
в series
имеет разную длину. Причина в том, что у меня изначально было string
внутри series
, а затем я применил функцию nltk
word_tokenize()
.
Я пытался использовать функции apply() lambda
, но безуспешно.
Например, чтобы посчитать частоту уникальных слов я попытался:
summary_word_frequency = df.summary_word_tokens.apply(lambda x: [x.value_counts() for x in df.summary_word_tokens])
Некоторые сведения о моих данных и их структуре:
В:
print(type(df.summary_word_tokens))
print(type(df.summary_word_tokens[0]))
print(type(df.summary_word_tokens[0][1]))
Из:
<class 'pandas.core.series.Series'>
<class 'list'>
<class 'str'>
В:
print(df.summary_word_tokens.shape)
print(df.summary_word_tokens[0])
print(df.summary_word_tokens[0][1])
Из:
(1000,)
['cake', 'type', 'is', 'cake', 'chocolate']
type
Моя цель состоит в том, чтобы иметь возможность перебирать все строки, так как я хочу, чтобы можно было передавать токены в алгоритм.
Или вы все порекомендовали бы другой способ токенизации / превращения списка в серию (так что это будет серия внутри серии)? И имеет ли значение то, как вы токенизируете, если проблема не контролируется?
Спасибо