Каков правильный порядок обучения модели ML? - PullRequest
0 голосов
/ 14 января 2019

У меня есть набор данных, содержащий мультиклассовую переменную, которая не сбалансирована. Я хочу знать, какой правильный порядок обучения модели:

1) Стандартизация-передискретизации-traintestsplit

2) traintestsplit-передискретизации-стандартизация

3) traintestsplit-передискретизации-стандартизирующая

1 Ответ

0 голосов
/ 15 января 2019

Добро пожаловать на борт.

По вашему вопросу, лучший подход может быть:

preprocessing -> train test split -> normalizing -> over/undersampling

очистка и предварительная обработка данных

Это должно быть вашей первой задачей, это включает в себя удаление ошибок из данных и объединение всех типов данных, необходимых по всей компании.

разделение теста на поезд

Это должно быть следующим из-за 2 вещей:

  • Если вы нормализуете набор данных до разделения, вы можете загрязнить свое обучение модели информацией тестовых данных (модели должны иметь возможность работать с невидимыми значениями)

  • Тестовые данные должны быть данными реального мира, так как если вы применяете какой-либо тип выборки к этому, вы изменяете эту реальность.

Нормализация

Нормализация ваших данных перед выборкой является хорошей практикой, потому что некоторые методы выборки используют модели для генерации новых точек данных, а получение нормализованных данных сделает лучшее формирование выборки.

Sampling

И наконец, произведите выборку ваших данных, я рекомендую вам оценить различные методы выборки и коэффициенты выборки и сравнить результаты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...