Я пытаюсь работать с машиной повышения градиента для решения проблемы двоичной классификации.
Учитывая следующую таблицу из 4 столбцов, где ColumnA - это двоичное значение (0,1), которое я пытаюсь предсказать
| ColumnA | ColumnB | ColumnC | ColumnD | ... |
| 0 |
| 1 |
Во всех обучающих данных я рассчитал средние значения и обнаружил, что между средними значениями ColumnB, когда A равно 0 и 1, существует большая разница, поэтому из моей интерпретации это означает, что это значение должно играть очень важную роль в прогнозе?
Однако, когда дело доходит до будущих данных, которые я пытаюсь классифицировать, у меня нет никакой информации о ColumnB. Мой вопрос здесь заключается в том, имеет ли смысл просто брать среднее значение columnB и указывать его в качестве значения для будущих данных, или мне следует полностью удалить ColumnB, поскольку я не могу получить эти данные в будущих значениях?
В настоящее время я подумал, что имеет смысл использовать среднее значение в качестве значения по умолчанию, но, поскольку это в любом случае сводит на нет эффективность столбца в будущих прогнозах, может быть, я делаю это даром?