Я делаю задачу классификации.
Предположим, это мой набор обучающих и тестовых данных.
X_train.shape y_train
(7500, 5760) (7500,)
x_test.shape y_test
(2500, 5760) (2500,)
После использования классификатора knn я получил точность 0,74%.
Теперь я хочу выбрать 1000 лучших объектови снова используйте knn и проверьте мою точность.
Как мне использовать SelectKBest
?
from sklearn.feature_selection import SelectKBest, chi2
k_best = SelectKBest(chi2, k=1000)
Нужно ли подгонять и преобразовывать как набор данных для обучения, так и тестовый набор данных.
Если я сделаю это, не будут ли функции, выбранные в поезде, отличаться от функций, выбранных в тесте?
Я не мог понять, как поступить?Пожалуйста, приведите пример.