Допустим, у нас есть некоторые данные (входные данные), с помощью которых мы хотим предсказать какой-либо вывод. Если возможные значения, которые может принимать заданный c вход, со временем менялись, все еще уместно использовать все данные?
Позвольте мне уточнить на примере. Предположим, что одним из входных данных является категориальная переменная, которая имеет уникальные значения [A, B, C]
в данных, но мы точно знаем, что в текущей ситуации, в которой мы в конечном итоге будем делать прогнозы, возможны только значения [A, B]
.
Будет ли по-прежнему целесообразно использовать все данные или следует исключить все наблюдения, включающие C
?