Как преобразовать два столбца в серию для векторизации графа? - PullRequest
0 голосов
/ 25 октября 2019

У меня есть кадр данных Pandas с двумя столбцами и 9372 записями.

Первый столбец называется twodig и представляет собой целое число. Второй столбец называется «descrp» и представляет собой varchar.

Panda Dataframe

После удаления стоп-слов и специальных символов я хочу использовать CountVectorizer на «descrp»только столбец, но все еще сохраняйте 'twodig'.

import pandas

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

bowmatrix = vectorizer.fit_transform(df)

Однако для запуска CountVectorizer требуется преобразование кадра данных в серию панд, а затем запуск с CountVectorizer.

corpus = pd.Series(df)

Но когда я запускаю скрипт, возникает ошибка: Неправильное количество пройденных элементов 2, размещение подразумевает 9372

Как преобразовать кадр данных pandas с несколькими столбцами в серию?

Спасибо

Ответы [ 2 ]

0 голосов
/ 25 октября 2019

Вы можете сделать что-то подобное, но после этого работать будет не оптимально.

import pandas 
from sklearn.feature_extraction.text import CountVectorizer 

vectorizer = CountVectorizer() 
df["bowmatrix"] = vectorizer.fit_transform(df["descrp"])
0 голосов
/ 25 октября 2019

Вы можете получить этот столбец только из своего DataFrame, например: df["descrp"], поэтому ваш код будет:

import pandas

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

bowmatrix = vectorizer.fit_transform(df["descrp"])
...