Я работаю над проектом по прогнозированию спроса на продукт на основе прошлых исторических данных для нескольких магазинов. У меня есть данные из нескольких магазинов за 5 лет. Я разделил 5-летний временной ряд на перекрывающиеся подпоследовательности и использую последние 18 месяцев, чтобы предсказать следующие 3, и я могу делать прогнозы. Тем не менее, я столкнулся с проблемой при выборе метода перекрестной проверки.
Я хочу провести разделительный тест и использовать своего рода перекрестную проверку для обучения модели и параметров настройки. Тем не менее, последний год данных был спад, где почти весь спрос пострадал. Когда я использую последние 20% (по времени) данных в качестве набора удержания, моя оценка теста очень низкая по сравнению с моей оценкой перекрестной проверки OOF, хотя я использую CV с разбивкой по времени. Скорее всего, это вызвано тем, что эта рецессия является новым поведением, и модель не может предсказать эти сильные спады, поскольку никогда не видела их раньше.
Решение, о котором я думаю, заключается в использовании случайного 20 % данных в качестве удержания и перетасованного Kfold в качестве перекрестной проверки. Поскольку я не предоставляю никакой информации о том, когда последовательность началась в модели, за исключением начального месяца (1–12) последовательности (чтобы помочь модели объяснить сезонность), моя теория заключается в том, что модель не должна превышать эти данные, основанные на этом. , Если в данных присутствуют все типы экономики, результаты модели должны также экстраполироваться на новые данные.
Я хотел бы получить второе мнение по этому поводу, считаете ли вы, что мои предположения верны? Есть ли другой способ решить эту проблему?