Добро пожаловать на борт.
По вашему вопросу, лучший подход может быть:
preprocessing -> train test split -> normalizing -> over/undersampling
очистка и предварительная обработка данных
Это должно быть вашей первой задачей, это включает в себя удаление ошибок из данных и объединение всех типов данных, необходимых по всей компании.
разделение теста на поезд
Это должно быть следующим из-за 2 вещей:
Если вы нормализуете набор данных до разделения, вы можете загрязнить свое обучение модели информацией тестовых данных (модели должны иметь возможность работать с невидимыми значениями)
Тестовые данные должны быть данными реального мира, так как если вы применяете какой-либо тип выборки к этому, вы изменяете эту реальность.
Нормализация
Нормализация ваших данных перед выборкой является хорошей практикой, потому что некоторые методы выборки используют модели для генерации новых точек данных, а получение нормализованных данных сделает лучшее формирование выборки.
Sampling
И наконец, произведите выборку ваших данных, я рекомендую вам оценить различные методы выборки и коэффициенты выборки и сравнить результаты.