Что если в столбце категорий есть несколько значений в наборе поездов, но только одно в тестовых данных?Будет ли такая функция полезна при обучении модели вообще? - PullRequest
0 голосов
/ 17 мая 2018

Я пытаюсь решить проблему регрессии, в которой одна из моих функций может принимать два значения ('1', '0') в наборе поездов, но в тестовых данных может оцениваться только '1'. Интуитивно понятно, что включение этой функции мне кажется неправильным, но я не могу найти конкретную логику, подтверждающую мое предположение.

1 Ответ

0 голосов
/ 17 мая 2018

ну, это зависит от того, сколько функций у вас есть в общей сложности.Если их очень мало (скажем, менее пяти), эта единственная функция, скорее всего, будет играть важную роль в вашей классификации.В этом случае я бы сказал, что у вас есть проблема с несоответствием данных;Это означает, что ваши данные тренировок и тестов поступают из разных дистрибутивов.Один простой способ решить эту проблему - собрать два набора, перемешать весь набор и снова разделить данные.

...