Question

вот проблема: c код:

from gensim.corpora import Dictionary
tweets_dictionary = Dictionary(df.tokenized)

Panda Dataframe df строится с двумя столбцами created_at и tokenized. "tokenized" состоит из списка слов:

df.head ()

Я получаю следующее сообщение об ошибке во время выполнения задачи c код:

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

Это очень странно для меня, поскольку столбец токенизирован это не одна строка. Я попытался преобразовать столбец в один список, список списков и кортеж, но пока ничего не помогло .... заранее спасибо за вашу помощь!

Anne · Answer 1 · 02 августа 2020

Хорошо ... Я тупой: включение "df.tokenized" в список сработало, я просто забыл сохранить код перед выполнением.

Так что правильный код будет:

from gensim.corpora import Dictionary
tweets_dictionary = Dictionary([df.tokenized])

gensim.corpora Ошибка типа словаря интерпретирует токенизированный столбец как одну строку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

gensim.corpora Ошибка типа словаря интерпретирует токенизированный столбец как одну строку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы