Ошибка значения (): найдены входные переменные с непоследовательным количеством выборок: [10540, 42158] - PullRequest
0 голосов
/ 04 декабря 2018

Я проснулся на данных классификации текста.Где я применил countVectorize и Tfidf [уровень слова, уровень ngram, уровень charater] на данных поезда текстовых данных.После применения метода tf-idf я получил X_train и Y_train в формате

"class 'scipy.sparse.csr.csr_matrix"

  1. X_trainc = (42158, 10261)
  2. train_y = (42158,)

Но При применении к наивной байесовской модели для прогнозирования

def train_model(classifier, feature_vector_train, label, feature_vector_valid, is_neural_net=False):
    # fit the training dataset on the classifier
    classifier.fit(feature_vector_train, label)

    # predict the labels on validation dataset
    predictions = classifier.predict(feature_vector_valid)


    return metrics.accuracy_score(predictions, train_y)


accuracy = train_model(naive_bayes.MultinomialNB(), X_trainc, train_y, X_testc)
print ("NB, Count Vectors: ", accuracy)

Я получаю ошибку следующим образом.

ValueError Traceback (последний последний вызов)

≪ipython-input-19-140f2a5e54ee> in

1 # Наивный байесовский отсчет векторов подсчета ----> 2 точность = train_model.10540, 42158]

Пожалуйста, помогите, как мне решить эту проблему.Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...