Как проверить модель временного ряда? - PullRequest
2 голосов
/ 24 января 2011

Мне интересно, каким будет хороший подход для тестирования модели временных рядов.Предположим, у меня есть временной ряд во временной области t1, t2, ... tN.У меня есть входные данные, скажем, zt1, zt2, ... ztN и выходные данные x1, x2 ... xN.

Теперь, если бы это была классическая проблема интеллектуального анализа данных, я мог бы использовать известные подходы, такие какпроверка, увольнение, 70-30 или что-то еще.

Но как мне подойти к проблеме тестирования моей модели с временными рядами?Должен ли я построить модель на первых входах t1, t2, ... t (Nk) и проверить ее на последних k входах?Но что, если мы хотим максимизировать прогноз для p шагов вперед, а не k (где p

Ответы [ 2 ]

3 голосов
/ 24 января 2011

При установке временных рядов вам нужно быть осторожным, когда не использует ваши данные вне выборки, пока вы не разработали свою модель. Основная проблема с моделированием заключается в том, что его легко надеть.

Обычно мы используем 70% для моделирования в пробе, 30% для тестирования / валидации вне выборки. И когда мы используем модель в производстве, данные, которые мы собираем ежедневно, становятся настоящими данными: данные, которые вы никогда не видели и не использовали.

Теперь, если у вас достаточно точек данных, я бы предложил попробовать подход с использованием скользящего окна. Для каждого временного шага в вашей выборке вы оглядываетесь назад на N временных шагов, чтобы соответствовать вашей модели, и видите, как параметры вашей модели меняются со временем. Например, предположим, что ваша модель представляет собой линейную регрессию с Y = B0 + B1 * X1 + B2 * X2. Вы бы сделали регрессию N - window_size время за образец. Таким образом, вы понимаете, насколько чувствительны ваши бета-версии по отношению ко времени.

3 голосов
/ 24 января 2011

Похоже, у вас есть выбор между

  1. Используя первые несколько лет данных для создания модели, а затем посмотрите, насколько хорошо она предсказывает оставшиеся годы.

  2. Использование данных за все годы для некоторого подмножества входных условий, а затем выяснение, насколько хорошо он прогнозирует, используя оставшиеся входные условия.

...