Последние пару дней я провел, читая документацию по Googles AutoML, а также просматривая видео на topi c. Я до сих пор не могу ответить на несколько основных c вопросов о том, как использовать AutoML для создания прогноза спроса на наши продукты.
В конечном итоге я просто пытаюсь создать прогнозы продаж для каждого продукта, который мы продаем. У меня есть данные о заказе за 2 года в базе данных, которые я собираюсь использовать для создания модели. Каждая строка представляет продукт в заказе. Строка содержит столбец order_date
, который содержит метку времени для размещения заказа. Строка также содержит sku продукта, поле quantity
, категории продукта и некоторые другие данные о продукте, которые можно использовать в качестве функций ML. Я также намерен добавить больше данных о функциях из других источников, как только пойму основы.
Мой целевой столбец - quantity
, поскольку я хочу иметь возможность прогнозировать количество, проданное в будущем диапазоне времени.
Первое, в чем я не уверен, это то, должен ли я установить этот столбец order_date
как «столбец времени» для обучения. Этот столбец объясняется несколькими способами в их документации. Вот одно объяснение:
Вы используете столбец Time, чтобы указать AutoML Tables, что время имеет значение для ваших данных; это не случайно распределено во времени. При указании столбца Time таблицы AutoML используют самые первые 80% строк для обучения, следующие 10% строк для проверки и последние 10% строк для тестирования.
У меня есть прочитайте это 100 раз и не можете решить, должны ли мои данные использовать или не использовать order_date
в качестве временного столбца. Не так ли?
Меня также смущает вопрос, нужно ли мне предварительно агрегировать эти данные с определенным временным разрешением, прежде чем использовать их для обучения. Например, если я в конечном итоге хочу иметь возможность прогнозировать покупки по дням в 3 месяца в будущем, нужно ли обучать его данным, которые уже агрегированы по дням? Или AutoML уже позаботится об этом? Влияет ли это временное разрешение на качество модели?