У меня есть набор данных со столбцом ID для каждого образца, как в этом примере:
id score1 score2 score3
1 0.41 0.37 0.04
2 0.19 0.33 0.277
3 0.21 0.33 0.037
4 0.49 0.23 0.378
5 0.51 0.78 0.041
Чтобы подогнать и предсказать классификатор ML по этим данным, я должен удалить столбец идентификатора из данных
X = np.array(df.drop(['id'], 1))
X_train, X_test = model_selection.train_test_split(X, test_size=0.2)`
clf.fit(X_train)
pred = clf.predict(X_test)
Мне интересно, как я могу восстановить идентификатор в результатах прогнозирования, чтобы я мог идентифицировать каждый образец, правильно ли он был классифицирован или нет? потому что я уже знаю правильную этикетку образцов. Или, если есть способ сохранить идентификатор (может быть числовым или не числовым) в тренинге?
Я нашел этот связанный вопрос, но я не могу понять, что делать, потому что они говорят о других вещах, таких как Census Estimator и т. Д., И я запускаю очень простой скрипт Python с numpy и библиотеки scikit-learn.