Question

У меня есть фрейм данных, который выглядит так:

Я пытаюсь векторизовать каждую строку, но только из текстового столбца. Я написал этот код:

vectorizerCount = CountVectorizer(stop_words='english')
# tokenize and build vocab
allDataVectorized = allData.apply(vectorizerCount.fit_transform(allData.iloc[:]['headline_text']), axis=1)

Ошибка говорит:

TypeError: («объект« csr_matrix »не может быть вызван», «произошел с индексом 0»)

Проведя некоторые исследования и попробовав изменения, я обнаружил, что функция fit_transform возвращает scipy.sparse.csr.csr_matrix, и это не вызывается.

Есть ли другой способ сделать это?

Спасибо!

Ami Tavory · Answer 1 · 12 мая 2018

Есть ряд проблем с вашим кодом. Вам, вероятно, нужно что-то вроде

allDataVectorized = pd.DataFrame(vectorizerCount.fit_transform(allData[['headline_text']]))

allData[['headline_text']]) (с двойными скобками) - это DataFrame, который преобразуется в пустой массив 2d.
fit_transform возвращает матрицу csr.
pd.DataFrame(...) создает DataFrame из матрицы csr.

Векторизация текста из столбца фрейма данных с использованием панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Векторизация текста из столбца фрейма данных с использованием панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы