У меня есть еженедельные данные временных рядов для нескольких отделов (домен розничной торговли), и на основе некоторых исследований я автоматизирую процесс поиска параметров модели для каждого временного ряда. До сих пор я реализовал следующие модели для каждого временного ряда в a для l oop:
1) ARIMA (auto.arima в R)
2) stlf (не могу использовать R Это функция, так как у меня есть еженедельные данные)
3) TBATS
4) Регрессия ошибок ARIMA (с использованием терминов Фурье)
5) Базовые модели: наивные и средние
Я хочу понять, как выбирать модели для каждого временного ряда. У меня есть несколько подходов к этому:
1) Выберите модель с самым низким среднеквадратичным средним значением по тестовым данным (риск: перегрузка по тестовым данным)
2) Выберите модель с самым низким среднеквадратичным средним значением по перекрестной проверке временной ряд (tsCV)
3) Выберите одно семейство моделей для всех временных рядов, в зависимости от того, какое семейство дает наименьший средний балл RMSE по всем временным рядам.
Есть ли способы улучшить мой подход? Есть ли недостатки у любого из вышеперечисленных подходов? Есть ли лучший подход?
Большое спасибо!