Несбалансированная классификация текста по передискретизации: вероятность коррекции - PullRequest
0 голосов
/ 26 апреля 2020

В моем наборе данных есть 3 класса и 900 примеров для обучения. Распределение классов составляет 220, 185 и 500.

Я обнаружил, что если я переизбираю тренировочные данные, то мне приходится корректировать / калибровать прогнозируемую вероятность тестовых данных, потому что после передискретизации тренировочные и тестовые данные распределения не одни и те же. Это хорошо описано здесь .

У меня есть три вопроса:

  1. Должен ли я сделать это также для прогнозирования набора данных проверки (используется для раннего остановка)?

  2. Нужно ли корректировать вероятности для расчета потерь?

  3. Это обязательный шаг? Я спрашиваю об этом, потому что это может повредить общей точности. Потому что это накажет вероятности классов, у которых меньше примеров.

...