Можно ли использовать в поиске в таблице те же данные, которые я буду использовать во время реальной классификации?
Можно использовать эти данные для обучения (подгонки) aклассификатор.Перекрестная проверка, как это сделано StratifiedKFold
, предназначена для ситуаций, когда у вас недостаточно данных для хранения набора проверки при оптимизации гиперпараметров (настроек алгоритма).Вы также можете использовать, если вам лень создавать разделитель проверочного набора и вы хотите положиться на встроенную перекрестную проверку scikit-learn:)
Параметр refit
для GridSearchCV
переучит оценщикна полном обучающем наборе после нахождения оптимальных настроек с перекрестной проверкой.
Однако, применять обученный классификатор бессмысленно применять к данным, которые вы искали или изучали в сетке, посколькуесть ярлыки.Если вы хотите выполнить формальную оценку классификатора, вы должны провести тестовый набор с самого начала и не трогать его снова, пока вы не выполните весь поиск, проверку и подбор по сетке.