Прогнозирование регрессии неравномерного временного ряда с учетом нескольких важных характеристик, таких как временной горизонт, которые нельзя повторно дискретизировать / агрегировать - PullRequest
0 голосов
/ 13 июля 2020

Это мой самый первый вопрос о stackoverflow, прошу прощения, если он не ясен и не указан c.

Проблема с прогнозом бронирования железнодорожных пассажиров.

У меня нерегулярное время набор данных серии, состоящий из таких функций.

DepartureDateTime.   Class    Destination.    DaysBeforeDeparture.    NoBookings

18-03-01 6:15:00.     1            A-B                     150                   2
18-03-01 6:15:00.     2            A-C                     56                    1
18-03-01 6:15:00.     1            A-C                     88                    4
18-03-01 7:18:00.     2            A-C                     56                    1
18-03-01 9:14:00.     1            A-B                     45                    43

Как вы заметили, индекс Datetime распределяется неравномерно и имеет множество дубликатов, поскольку соответствует разным классам, пунктам назначения и DBD.

Более того железнодорожные поезда могут ходить в разное время в будние / выходные дни. Иногда вообще не запускается. Кроме того, в дневное время время может меняться, пн-пт с 6:00 до 23:00, в выходные только с 10:00 до 17:00.

Общая цель - предсказать количество бронирований с учетом c Class / Destination (Route) /DBD.

Я пробовал использовать модели временных рядов, а именно экспериментировал с RNN LSTM и FB Prophet с ежечасной и ежедневной агрегацией (требуется равномерно распределенное время), повторно дискретизировал с использованием среднего / медиана / сумма других функций и добавлены в качестве дополнительных регрессоров.

Хотя результат казался неплохим, я не мог включить другие важные функции, такие как DBD, Class и Dest, поскольку на выходе агрегированного прогноза только суммированный номер бронирования, который является не указано c для функций.

Другой подход состоит в том, чтобы извлечь дополнительные функции из индекса datetime, например:

year month day hour minute 
-------------------------
2018   3    1   6    15    

, и использовать традиционные модели (SVR, RFR, NN) для прогнозирования числа бронирований.

Главный недостаток этого подхода - мы упускаем из виду временные зависимости (сезонность, тренд, iday effects et c.) и рассматривать наблюдения как iid.

Мой вопрос: есть ли какие-либо методы, которые могут быть применимы к этой проблеме, чтобы захватить 2 проблемы в комбинации?

Более того, часть Dynami c: DBD имеет решающее значение, так как бронирование, сделанное за 175 дней до этого, отличается от бронирования, сделанного за 1 день до этого. Цены разные.

Спасибо, ABZ

...