ValueError: Найдены входные переменные с непоследовательным количеством выборок: [1, 3185] - PullRequest
0 голосов
/ 03 июня 2018
# -*- coding: utf-8 -*-
"""
Created on Sun Jun  3 01:36:10 2018

@author: Sharad
"""
import numpy as np
import pickle
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
dbfile=open("D:/df_train_api.pk", 'rb')
df=pickle.load(dbfile)


y=df[['label']]
features=['groups']
X=df[features].copy()
X.columns
y.columns

#for spiliting into training and test data

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=324)
#for vectorizing
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(X_train)
X_train_counts.shape

from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_tfidf, y_train)

Проблема заключается в векторизации g, поскольку она дает мне размер X_train_counts [1,1].Я не знаю почему.И именно поэтому MultinomialNB не может выполнить действие, так как y_train имеет размер [1, 3185].Я новичок в машинном обучении.Любая помощь будет высоко ценится.

traceback:

Traceback (most recent call last):

  File "<ipython-input-52-5b5949203f76>", line 1, in <module>
    runfile('C:/Users/Sharad/.spyder-py3/hypothizer.py', wdir='C:/Users/Sharad/.spyder-py3')

  File "C:\Users\Sharad\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py", line 705, in runfile
    execfile(filename, namespace)

  File "C:\Users\Sharad\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py", line 102, in execfile
    exec(compile(f.read(), filename, 'exec'), namespace)

  File "C:/Users/Sharad/.spyder-py3/hypothizer.py", line 37, in <module>
    clf = MultinomialNB().fit(X_train_tfidf, y_train)

  File "C:\Users\Sharad\Anaconda3\lib\site-packages\sklearn\naive_bayes.py", line 579, in fit
    X, y = check_X_y(X, y, 'csr')

  File "C:\Users\Sharad\Anaconda3\lib\site-packages\sklearn\utils\validation.py", line 583, in check_X_y
    check_consistent_length(X, y)

  File "C:\Users\Sharad\Anaconda3\lib\site-packages\sklearn\utils\validation.py", line 204, in check_consistent_length
    " samples: %r" % [int(l) for l in lengths])

ValueError: Found input variables with inconsistent numbers of samples: [1, 3185]

1 Ответ

0 голосов
/ 04 июня 2018

CountVectorizer (и по наследству, TfidfTransformer и TfidfVectorizer) ожидает итерацию необработанных документов в fit() и fit_transform():

raw_documents : iterable
    An iterable which yields either str, unicode or file objects.

Итаквнутренне он сделает это:

for doc in raw_documents:
    do_processing(doc)

Когда вы передадите ему объект DataFrame pandas, for ... in X даст только имена столбцов.И, следовательно, обрабатывается только один документ (вместо данных внутри этого столбца).

Вам необходимо сделать это:

X = df[features].values().ravel()

Или сделать это:

X=df['groups'].copy()

Существует разница в коде выше и коде, который вы делаете.Вы делаете это:

X=df[features].copy()

Здесь features - это уже список столбцов.По сути, это становится:

X=df[['groups']].copy()

Разница заключается в двойных скобках здесь (которые возвращают фрейм данных) и одинарных скобках в моем коде (который возвращает Series).

for value in X работает, как и ожидалось, когда X - это серия, но возвращает имена столбцов, только когда X - это фрейм данных.

Надеюсь, это понятно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...