Проверка достоверности данных временных рядов с нетипичным окончанием - PullRequest
0 голосов
/ 17 февраля 2020

Я работаю над проектом по прогнозированию спроса на продукт на основе прошлых исторических данных для нескольких магазинов. У меня есть данные из нескольких магазинов за 5 лет. Я разделил 5-летний временной ряд на перекрывающиеся подпоследовательности и использую последние 18 месяцев, чтобы предсказать следующие 3, и я могу делать прогнозы. Тем не менее, я столкнулся с проблемой при выборе метода перекрестной проверки.

Я хочу провести разделительный тест и использовать своего рода перекрестную проверку для обучения модели и параметров настройки. Тем не менее, последний год данных был спад, где почти весь спрос пострадал. Когда я использую последние 20% (по времени) данных в качестве набора удержания, моя оценка теста очень низкая по сравнению с моей оценкой перекрестной проверки OOF, хотя я использую CV с разбивкой по времени. Скорее всего, это вызвано тем, что эта рецессия является новым поведением, и модель не может предсказать эти сильные спады, поскольку никогда не видела их раньше.

Решение, о котором я думаю, заключается в использовании случайного 20 % данных в качестве удержания и перетасованного Kfold в качестве перекрестной проверки. Поскольку я не предоставляю никакой информации о том, когда последовательность началась в модели, за исключением начального месяца (1–12) последовательности (чтобы помочь модели объяснить сезонность), моя теория заключается в том, что модель не должна превышать эти данные, основанные на этом. , Если в данных присутствуют все типы экономики, результаты модели должны также экстраполироваться на новые данные.

Я хотел бы получить второе мнение по этому поводу, считаете ли вы, что мои предположения верны? Есть ли другой способ решить эту проблему?

1 Ответ

1 голос
/ 17 февраля 2020

Ваше общее предположение верно, так как вы, вероятно, можете использовать случайные куски времени для формирования своего тренировочного и тестового набора. Однако, делая это таким образом, вы должны быть осторожны. Вместо того, чтобы прогнозировать исходные значения следующих 3 месяцев за предыдущие 18 месяцев, я бы предсказал относительное увеличение / уменьшение продаж в следующие 3 месяца по сравнению со средним значением за последние 18 месяцев.

(см. здесь) http://people.stern.nyu.edu/churvich/Forecasting/Handouts/CourantTalk2.pdf

В противном случае корреляция между следующими 3 месяцами с вашими данными за предыдущие 18 месяцев может дать вам ложное представление о точности вашей модели

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...