Question

У меня есть кадр данных Pandas с двумя столбцами и 9372 записями.

Первый столбец называется twodig и представляет собой целое число. Второй столбец называется «descrp» и представляет собой varchar.

Panda Dataframe

После удаления стоп-слов и специальных символов я хочу использовать CountVectorizer на «descrp»только столбец, но все еще сохраняйте 'twodig'.

import pandas

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

bowmatrix = vectorizer.fit_transform(df)

Однако для запуска CountVectorizer требуется преобразование кадра данных в серию панд, а затем запуск с CountVectorizer.

corpus = pd.Series(df)

Но когда я запускаю скрипт, возникает ошибка: Неправильное количество пройденных элементов 2, размещение подразумевает 9372

Как преобразовать кадр данных pandas с несколькими столбцами в серию?

Спасибо

Florian Bernard · Answer 1 · 25 октября 2019

Вы можете сделать что-то подобное, но после этого работать будет не оптимально.

import pandas 
from sklearn.feature_extraction.text import CountVectorizer 

vectorizer = CountVectorizer() 
df["bowmatrix"] = vectorizer.fit_transform(df["descrp"])

Erfan Loghmani · Answer 2 · 25 октября 2019

Вы можете получить этот столбец только из своего DataFrame, например: df["descrp"], поэтому ваш код будет:

import pandas

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

bowmatrix = vectorizer.fit_transform(df["descrp"])

Как преобразовать два столбца в серию для векторизации графа?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как преобразовать два столбца в серию для векторизации графа?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы