В1) Я работаю в сильно несбалансированном наборе данных с 300 столбцами * 400000 строк. Могу ли я провести пробоподбор данных до того, как разбить их на набор для обучения и тестирования? Приводит ли это к переоснащению модели?
Q2) Могу ли я применить PCA (метод уменьшения размерности) для каждого целевого класса отдельно? Например, мой целевой класс имеет 0,1 метки. Могу ли я применить PCA ко всем образцам метки 0, затем применить PCA ко всем образцам метки 1, а затем объединить результаты в один набор данных?
Большое спасибо за помощь!