Проблема классификации, где только будущие данные имеют важные пропущенные значения? - PullRequest
0 голосов
/ 25 мая 2019

Я пытаюсь работать с машиной повышения градиента для решения проблемы двоичной классификации.

Учитывая следующую таблицу из 4 столбцов, где ColumnA - это двоичное значение (0,1), которое я пытаюсь предсказать

|  ColumnA  |  ColumnB  |  ColumnC  | ColumnD  | ... |
|     0     |
|     1     |

Во всех обучающих данных я рассчитал средние значения и обнаружил, что между средними значениями ColumnB, когда A равно 0 и 1, существует большая разница, поэтому из моей интерпретации это означает, что это значение должно играть очень важную роль в прогнозе?

Однако, когда дело доходит до будущих данных, которые я пытаюсь классифицировать, у меня нет никакой информации о ColumnB. Мой вопрос здесь заключается в том, имеет ли смысл просто брать среднее значение columnB и указывать его в качестве значения для будущих данных, или мне следует полностью удалить ColumnB, поскольку я не могу получить эти данные в будущих значениях?

В настоящее время я подумал, что имеет смысл использовать среднее значение в качестве значения по умолчанию, но, поскольку это в любом случае сводит на нет эффективность столбца в будущих прогнозах, может быть, я делаю это даром?

1 Ответ

1 голос
/ 25 мая 2019

Ответ на ваш вопрос зависит от двух вещей: во-первых, относительный вес или значение, которое модель GB придает столбцу B. Если модель придает большой вес columnB, и это является основным решающим фактором в вашем обучающий набор, а затем заполнение нулевых или пропущенных значений средним может привести к неправильному прогнозированию. Второе - количество пропущенных значений в columnB. Если в этом столбце всегда отсутствует много данных, скажем, 30% или более, использование этого столбца не имеет смысла, так как модель будет ненадежной, а ваши обучающие данные не будут иметь нулевых значений в столбце B, поэтому модель никогда не видела данных с null и будет сбит с толку при прогнозировании.

Вы должны проверить важность функции в вашей модели, прежде чем продолжить. Проверьте точность без columnB. Последнее решение или расширенное решение будет иметь модель системы голосования, где у вас есть несколько моделей, некоторые с колонкой B, а некоторые без.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...