Векторизация текста из столбца фрейма данных с использованием панд - PullRequest
0 голосов
/ 12 мая 2018

У меня есть фрейм данных, который выглядит так:

enter image description here

Я пытаюсь векторизовать каждую строку, но только из текстового столбца. Я написал этот код:

vectorizerCount = CountVectorizer(stop_words='english')
# tokenize and build vocab
allDataVectorized = allData.apply(vectorizerCount.fit_transform(allData.iloc[:]['headline_text']), axis=1)

Ошибка говорит:

TypeError: («объект« csr_matrix »не может быть вызван», «произошел с индексом 0»)

Проведя некоторые исследования и попробовав изменения, я обнаружил, что функция fit_transform возвращает scipy.sparse.csr.csr_matrix, и это не вызывается.

Есть ли другой способ сделать это?

Спасибо!

1 Ответ

0 голосов
/ 12 мая 2018

Есть ряд проблем с вашим кодом. Вам, вероятно, нужно что-то вроде

allDataVectorized = pd.DataFrame(vectorizerCount.fit_transform(allData[['headline_text']]))
  • allData[['headline_text']]) (с двойными скобками) - это DataFrame, который преобразуется в пустой массив 2d.

  • fit_transform возвращает матрицу csr.

  • pd.DataFrame(...) создает DataFrame из матрицы csr.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...