Тестовый набор Целевая кодировка со средним значением метки - PullRequest
0 голосов
/ 27 февраля 2020

Я обнаружил, что целевое кодирование поезда и набора тестов со средним значением метки должно выполняться на основе целевых значений набора поездов, чтобы мы не пропускали информацию о наборе поездов в тестовый набор.

Я выполняю кодирование цели более Мой набор данных, основанный на метке набора поездов, означает, что, поскольку набор данных является временным рядом, а одна из переменных для кодирования - «Год», последние два года моих данных отправляются в набор тестов и не получают закодированные значения, результаты в NA. Как мы должны кодировать те значения в наборе тестов, которых нет в наборе поездов.

1 Ответ

0 голосов
/ 28 февраля 2020

Хорошо. После того, как никто не ответил на этот вопрос, и я решил проблему. Я нашел решение. Ответ заключается в том, что в задаче временного ряда невозможно выполнить целевое кодирование для функции «Год», поскольку годы идентичны и характеристики, повторяющиеся по сравнению с предыдущими годами, могут отсутствовать, в отличие от функций «Монтирование» или «Номер недели». , Итак, один из лучших способов - это кодирование One-hot. Я должен отметить, что эта проблема справедлива только в тех случаях, когда признак даты считается категориальным атрибутом.

...