Сокращение временного интервала обучения данных для повышения производительности модели? - PullRequest
0 голосов
/ 26 апреля 2020

У меня есть данные для модели на срок до 10 лет. Каждое наблюдение представляет один час, на который я хочу сделать (двоичный) прогноз. Как хороший DS, я изначально установил 3 набора данных на

Training: 2011-2018
Validation: 2019
Test: 2020

. Я вижу (и знаю), что более старые данные не так репрезентативны для новых / будущих приложений. Но это не похоже на то, что «в 2016 году x изменилось, поэтому мы можем отбросить все данные заранее»

Можно ли обучать ту же модель, но с итеративно меньшим количеством данных (сохраняя при этом проверку нетронутой и используя ее для модели оценка)? Например:

T0: 2011-2018
T1: 2012-2018
...

Попробовав это, я увидел значительное увеличение производительности модели в наборе данных проверки. В моей бинарной модели классификации точность увеличилась на (отн.) На 5-10% по сравнению с базовой моделью (что было бы массово для приложений).

Это был бы простой способ настройки наборов обучающих данных путем итеративного удаления самые старые данные. Я попал в какую-то ловушку здесь или этот подход хорош?

Что могло бы помешать мне всегда отбрасывать самый старый пункт данных?
Или, если быть более реалистичным, создать al oop, который всегда удаляет самый старый месяц данных.

Моя интуиция говорит, что все в порядке , но не нашел никакой литературы, которая бы приводила этот конкретный c пример

...