Вам необходимо применить те же этапы предварительной обработки, которые вы применяли к данным обучения, и использовать их в качестве входных данных для классификатора. Убедитесь, что вы не используете fit_transform () для новых данных, используйте только transform ().
#Change this part in your preprocessing, so you can keep the original vectorizer.
vect = CountVectorizer(tokenizer=lambda doc: doc, lowercase=False)
bag_of_words = vect.fit_transform(corpus)
...
...
# Now when predicting, use this
new_data = ... # your new input
new_x = vect.transform(new_data)
y_pred = classifier.predict(new_x)