Следующий кадр данных (рисунок 1) является примером моих данных. Это данные временного ряда в двоичной категории.
Я использую Adaboost для обучения и прогнозирования моих данных, а система оценки - это оценка F1.
Я обнаружил, что точность прогноза значительно увеличится, если я искусственно создам годовые данные со всеми строками зависимой переменной (появляется альфа-волна?), равными 0 (рисунок 2), и добавлю их обратно к исходному набору данных. (в модели больше ничего не меняется)
Истинный положительный результат немного увеличивается, а ложно-отрицательный значительно уменьшается.
Это просто совпадение? Или за этим стоит какая-то теория?
Я пытался предсказать данные за разные годы, и это решение, кажется, работает большую часть лет. И поэтому мне просто интересно, возможно ли, что нулевой кадр данных уменьшает шум данных временных рядов?
У меня нет solid опыта в области науки о данных. Если кто-то может предоставить мне какие-либо ресурсы, чтобы объяснить эту ситуацию, это будет очень полезно! (Или ... просто дайте мне знать, что это просто совпадение ...)
Спасибо.
рисунок 1.
рисунок 2. ![enter image description here](https://i.stack.imgur.com/AsrNi.png)