Я пытаюсь понять данные, необходимые для прогноза Amazon для создания прогноза спроса, используя мои исторические данные о продажах. Я прочитал документацию много раз. Я все еще не понимаю, как должно функционировать поле in_stock в связанном временном ряду. Вот ссылка на описание поля "in_stock", на которое я ссылаюсь:
https://docs.aws.amazon.com/forecast/latest/dg/retail-domain.html#related -time-series-type-retail-domain
Это говорит:
Следующие поля являются необязательными и могут быть полезны для улучшения результатов прогноза:
- in_stock (integer; 1 = true, 0 = false) - флаг, который указывает, есть ли товар на складе.
Что именно означает это поле? Это должно быть установлено в 0, когда количество продаж равно 0? Другими словами, если количество продаж за данный день равно 0, а in_stock установлено в 0, то система знает, что продажи были 0, потому что продукт был недоступен, а не потому, что не было спроса.
Что делать, если товара нет на складе в середине дня. Может быть, это тот случай, когда у вас может быть in_stock = 0, но продажи в тот день тоже есть?
Меня также смущает, как это поле in_stock вступает в игру, когда в другой части их документации:
https://d1.awsstatic.com/whitepapers/time-series-forecasting-principles-amazon-forecast.pdf?did=wp_card&trk=wp_card
На стр. 10 они говорят:
В исследовании конкретного случая информация о том, что продавец продал ноль единиц доступного товара отличается от информации о том, что нулевые единицы недоступного товара продаются либо в периоды вне его существования, например, до его запуска или после его устаревания, либо в периоды в течение его существования, например, частично нет в наличии, или когда не было данных о продажах записано для этого временного диапазона. Нулевое заполнение по умолчанию применимо в этом первом случае. В последнем, хотя соответствующее целевое значение обычно равно нулю, в значении, помеченном как отсутствующее, передается дополнительная информация. Вы должны сохранить информацию о том, что отсутствовали данные, и не отбрасывать эту информацию (см. Следующий пример для иллюстрации того, почему важно хранить информацию). Чтобы закодировать значение, которое не представляет нулевые продажи доступного продукта как действительно отсутствующие, Amazon Forecast позволяет пользователю указать тип заполнения для средней и обратной заливки в ключе FeaturiizationMethodParameters параметра FeaturiizationConfig API create_predictor. Чтобы пометить значение как действительно отсутствующее, тип заполнения для этих параметров должен быть установлен в NaN. В отличие от нулевого заполнения, значения, закодированные с помощью NaN, обрабатываются как действительно отсутствующие и не используются в компоненте оценки метрик.
Похоже, что это означает, что когда товара нет на складе и нет продажи, эти строки должны быть помечены как NaN
, что эффективно удаляет эти строки из набора данных.
Полагаю, мои вопросы сводятся к:
Что такое разница между днем с 0 продажами и in_stock = 0 по сравнению с днем с продажами = NaN, который эффективно удаляет этот день из набора данных?
Что вы делаете, когда продукт выходит из запас на полпути через день? Может ли in_stock = 0 и все еще иметь данные о продажах за данный день?