Подстановка пропущенных значений с помощью knn для данных временных рядов - PullRequest
0 голосов
/ 14 июля 2020

У меня есть поезд и тестовый набор. Данные состоят из нескольких временных рядов. И мне интересно, как вы должны действовать с условным условием для пропущенных значений. На данный момент я использовал его для всего набора данных (набор для обучения и тестирования). Затем я тренирую свою модель (LGBM) на обучающем наборе и предсказываю с помощью тестового набора. Но не следует ли мне делать только вменение knn на обучающем наборе, поскольку набор тестов еще не известен (данные временных рядов и набор тестов будут в будущем).

Каждый раз при применении вменения knn к поезду & test, будущие наблюдения (набор тестов) используются для knn. Я предполагаю, что во временных рядах, и всякий раз, когда вы хотите предсказать будущее, а не уже его знать, вы должны использовать knn только для обучающего набора? Но тогда как мне продолжить работу с недостающими значениями тестового набора?

В случае вменения среднего вы можете вычислить среднее значение в обучающем наборе и использовать его для заполнения недостающих значений тестового набора. Должен ли я сделать что-то подобное, но начать с вычисления недостающих значений в обучающем наборе с помощью knn?

Что-нибудь поможет!

...