Как использовать перекрестную проверку после вменения в набор для обучения и проверки? - PullRequest
0 голосов
/ 18 декабря 2018

Так что я немного запутался.

На данный момент у меня есть набор данных около 800 экземпляров.Я разделил его на обучающий и проверочный набор, потому что отсутствовали значения, поэтому я использовал SimpleImputer из sklearn и fit_transform-ed обучающий набор и преобразовал тестовый набор.Я сделал это потому, что если я хочу прогнозировать новые экземпляры, если пропущены значения, мне нужно будет вменять его так же, как я вменял набор тестов.

Теперь я хочу использовать перекрестную проверку для обучения и оценки моделей, но это потребовало бы использования всего набора данных и разбиения его на различные учебные и тестовые наборы, поэтому я беспокоюсь об утечке из учебного набораиз-за вменяемых значений устанавливается?

1 Ответ

0 голосов
/ 18 декабря 2018

Как правило, вам нужно разделить данные на три набора: набор для обучения, набор для тестирования и набор для проверки.Набор для тестирования должен быть полностью исключен из обучения (ваша проблема верна). При использовании перекрестной проверки вам не нужно беспокоиться о разделении набора обучения и проверки - это то, что перекрестная проверка делает для вас!Просто передайте тренировочный набор перекрестному валидатору, позвольте ему разделиться на обучение и проверку за кулисами и протестируйте окончательную модель на вашем тестовом наборе (который был полностью исключен из процесса обучения).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...