Использование в настоящее время неверных входных данных в целях прогнозирования - PullRequest
1 голос
/ 11 марта 2020

Допустим, у нас есть некоторые данные (входные данные), с помощью которых мы хотим предсказать какой-либо вывод. Если возможные значения, которые может принимать заданный c вход, со временем менялись, все еще уместно использовать все данные?

Позвольте мне уточнить на примере. Предположим, что одним из входных данных является категориальная переменная, которая имеет уникальные значения [A, B, C] в данных, но мы точно знаем, что в текущей ситуации, в которой мы в конечном итоге будем делать прогнозы, возможны только значения [A, B].

Будет ли по-прежнему целесообразно использовать все данные или следует исключить все наблюдения, включающие C?

1 Ответ

1 голос
/ 11 марта 2020

Если C не однозначно отображается на переменную Target, а скорее разделяет некоторые целевые переменные с A или / и B. В этом случае, оставив C в наборе данных, зная, что это точно не произойдет в будущих входных данных (т. Е. Где вы прогнозируете невидимые входные данные), вы скорректируете гипотезу модели (а это зависит от модели, линейной модели более склонны к этому), и окончательная гипотеза, следовательно, будет основана на избыточной информации.

Проще говоря: In-Sample не представляет Out-of-Sample , поэтому он переопределится и не будет обобщать!.

...