Как Арима работает с нерегулярным индексом Timestamp? - PullRequest
0 голосов
/ 04 июля 2019

Давайте представим набор данных, подобный следующему:

Index                 Amount_in_checkout
01.02.2018 08:00:00   234.50 
01.02.2018 08:05:00   234.50 
01.02.2018 08:10:00   234.50 
01.02.2018 08:15:00   236.75
01.02.2018 08:20:00   235.00 
01.02.2018 08:25:00   234.50 
01.02.2018 08:30:00   234.50 
...
01.02.2018 19:55:00   332.50 

Теперь предположим, что этот набор данных отслеживает каждые 5 минут сумму денег, которую имеет магазин.Магазин работает с 8 до 20 часов, поэтому нет информации о том, что происходит с 20 до 8 часов.Как Арима будет выглядеть на такой неправильной отметке времени?

Мои идеи:

  • Предполагается сгруппировать все строки дня в одной строке (например, первая строка дня, freq = 'D' ) и прогнозировать значения ожидаемого в 8 утра.На мой взгляд, плохая идея по 2 причинам: пропускает много данных и точность, то, что происходит в течение дня, очень важно в этой модели, во-вторых, проблема остается нерешенной, потому что у нас есть выходные и праздничные дни, поэтому временная метка остается нерегулярной.И набор данных, конечно, намного меньше, считая год данных, которые у нас есть, как 300 дней, исключая выходные и праздничные дни.

  • Мы решили разделить дневные ряды на 24 корзины, выполняя какое-то среднее значение, сначала или в зависимости от того, что лучше всего подходит, расширить строки до 24 часов в день и прогнозировать каждый час дня (freq = 'h' ).Модель кажется более точной, но все еще имеет проблемы с выходными и праздничными днями.

  • Я думаю добавить переменные exog для праздников и дней недели.Как-то в данных есть информация (не полная), даже если магазин был закрыт, показывающий одинаковую сумму в течение всего дня.Будет ли это решение сообщать модели, что «Сумма» не должна меняться в выходные или праздничные дни?

То, что я пытаюсь сделать, - это поддерживать линейную и регулярную временную метку, чтобы избежать дней, в которые количество не меняется, потому что я понимаю, как работает Арима, но никогда не пыталсяв наборе данных, как это.Или, может быть, есть другое решение для этого (?) Или просто удалите данные этих дней и не используйте этот exog vars (?)

PS.Работы модели, даже без выходных и праздничных дней, сгруппированные по дням или разделенные на 24 корзины, просто не уверены, что мои идеи верны.Иногда действительно точный, иногда пропускает на 35/40%, как правило, следует тенденции на 5 дней в дальнейшем, когда они группируются по дням, или на 24 часа позже, если задерживается на 24 ячейки.

Я бы действительнооцените некоторые ссылки, курсы, книги, чтобы глубоко понять, как это работает.

Заранее спасибо и извините за мой английский :)

...