gensim.corpora Ошибка типа словаря интерпретирует токенизированный столбец как одну строку - PullRequest
0 голосов
/ 02 августа 2020

вот проблема: c код:

from gensim.corpora import Dictionary
tweets_dictionary = Dictionary(df.tokenized)

Panda Dataframe df строится с двумя столбцами created_at и tokenized. "tokenized" состоит из списка слов:

df.head ()

Я получаю следующее сообщение об ошибке во время выполнения задачи c код:

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

Это очень странно для меня, поскольку столбец токенизирован это не одна строка. Я попытался преобразовать столбец в один список, список списков и кортеж, но пока ничего не помогло .... заранее спасибо за вашу помощь!

1 Ответ

0 голосов
/ 02 августа 2020

Хорошо ... Я тупой: включение "df.tokenized" в список сработало, я просто забыл сохранить код перед выполнением.

Так что правильный код будет:

from gensim.corpora import Dictionary
tweets_dictionary = Dictionary([df.tokenized])
...