В моем наборе данных есть 3 класса и 900 примеров для обучения. Распределение классов составляет 220, 185 и 500.
Я обнаружил, что если я переизбираю тренировочные данные, то мне приходится корректировать / калибровать прогнозируемую вероятность тестовых данных, потому что после передискретизации тренировочные и тестовые данные распределения не одни и те же. Это хорошо описано здесь .
У меня есть три вопроса:
Должен ли я сделать это также для прогнозирования набора данных проверки (используется для раннего остановка)?
Нужно ли корректировать вероятности для расчета потерь?
Это обязательный шаг? Я спрашиваю об этом, потому что это может повредить общей точности. Потому что это накажет вероятности классов, у которых меньше примеров.