У меня есть кадр данных Pandas с двумя столбцами и 9372 записями.
Первый столбец называется twodig и представляет собой целое число. Второй столбец называется «descrp» и представляет собой varchar.
Panda Dataframe
После удаления стоп-слов и специальных символов я хочу использовать CountVectorizer на «descrp»только столбец, но все еще сохраняйте 'twodig'.
import pandas
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
bowmatrix = vectorizer.fit_transform(df)
Однако для запуска CountVectorizer требуется преобразование кадра данных в серию панд, а затем запуск с CountVectorizer.
corpus = pd.Series(df)
Но когда я запускаю скрипт, возникает ошибка: Неправильное количество пройденных элементов 2, размещение подразумевает 9372
Как преобразовать кадр данных pandas с несколькими столбцами в серию?
Спасибо