CountVectorizer приводит к ошибке в python - PullRequest
0 голосов
/ 18 февраля 2020

Я пытаюсь преобразовать в векторы для набора данных, который имеет два столбца, обзор и настроение. Ниже приведен код.

data = pd.read_csv('/content/IMDB Dataset_SM.csv')
review = data['review']
review= [review] 
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
x= cv.fit_transform(review)
a=x.toarray()
col = cv.get_feature_names()
df = pd.DataFrame(data=a, columns=col)
df
I am getting error :
AttributeError: 'Series' object has no attribute 'lower'.

Пожалуйста, помогите !!! Спасибо

1 Ответ

0 голосов
/ 18 февраля 2020

вы можете попробовать это:

review=data['review'].values #this will create list
cv = countVectorizer()
x= cv.fit_transform(review)

CountVectorizer принимает список строк.

В вашем коде вы извлекаете Series, когда вы делаете review = data['review'] и затем добавление этой серии в список при выполнении review= [review]

Кроме того, вам необходимо проверить, есть ли в вашем фрейме данных или серии элемент нестрокового типа или элементы nan.

Надеюсь, это поможет.

...