Как работать с 2 столбцами даты в задаче временного ряда? - PullRequest
0 голосов
/ 11 июля 2019

У меня есть набор данных, в котором у меня есть 2 столбца даты. Что-то вроде таблицы ниже. train_fare и pred_fare находятся в разных файлах и имеют разные даты

flt_number carrier flt_date flt_book_dt train_fare/pred_fare

123    L1    2018-01-01    2017-11-01    2015/NaN
123    L1    2018-01-01    2017-11-02     562/NaN
123    L1    2018-01-01    2017-11-03     562/NaN
...
123    L1    2018-01-01    2018-01-01    2015/NaN
123    L1    2018-02-01    2018-12-17     562/NaN
123    L1    2018-02-01    2018-12-18     562/NaN
...
123    L1    2018-04-01    2018-04-01    5055/NaN
123    L1    2018-05-01    2018-04-02     890/NaN
111    L2    2018-01-01    2017-11-15    1000/NaN
...

Теперь, даже если я сортирую фрейм данных по обеим датам - либо по flt_date, либо по flt_book_dt, некоторые даты отсутствуют, но обе даты перемещаются, а иногда и повторяются, что мы должны предсказать, что-то похожее на любой конкретный flt_book_dt, каким будет тариф для полета на flt_date

111    L2    2019-05-01    2019-03-10    ??

То, что я до сих пор делал, это то, что я вменял все пропущенные даты в обеих колонках и вменял 0 train_fare, что могло означать, что рейс не был запланирован на тот день, но я не мог понять, как это сделать две даты в моделировании Я не могу создать 2 серии, потому что даты также повторяются, поэтому мы потеряем много значений в train_fare.

Edit: Я создал сводную таблицу с несколькими временными рядами для разных значений flt_number, после чего можно использовать VARMAX, но все же у нас будет 2 даты для работы. Есть идеи ??

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...