Я построил модель классификации текста, модель берет твиты пользователей и предсказывает пол каждого пользователя. Я использовал TF-IDF для преобразования твитов и использовал кодировку для кодирования моей целевой переменной 0,1 для мужчин и женщин.
Теперь у меня есть результаты прогноза в форме numpy.ndarray
. Мой вопрос: как сопоставить прогноз с исходной формой (мужчина / женщина) и назначить их соответствующим пользователям?
кодировка меток
encoder = preprocessing.LabelEncoder()
train_y = encoder.fit_transform(train_y)
прогноз
classifier = svm.SVC()
classifier.fit(train_x_tfidf, train_y)
print(classifier.predict(valid_x_tfidf))
Результат:
[0 0 1 1 1 1 0 1 0 0 0 0 0 1 1 1 1 0 0 1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 1 1 1]