Как правильно использовать Google AutoML Tables для создания модели прогнозирования продукта - PullRequest
0 голосов
/ 10 января 2020

Последние пару дней я провел, читая документацию по Googles AutoML, а также просматривая видео на topi c. Я до сих пор не могу ответить на несколько основных c вопросов о том, как использовать AutoML для создания прогноза спроса на наши продукты.

В конечном итоге я просто пытаюсь создать прогнозы продаж для каждого продукта, который мы продаем. У меня есть данные о заказе за 2 года в базе данных, которые я собираюсь использовать для создания модели. Каждая строка представляет продукт в заказе. Строка содержит столбец order_date, который содержит метку времени для размещения заказа. Строка также содержит sku продукта, поле quantity, категории продукта и некоторые другие данные о продукте, которые можно использовать в качестве функций ML. Я также намерен добавить больше данных о функциях из других источников, как только пойму основы.

Мой целевой столбец - quantity, поскольку я хочу иметь возможность прогнозировать количество, проданное в будущем диапазоне времени.

Первое, в чем я не уверен, это то, должен ли я установить этот столбец order_date как «столбец времени» для обучения. Этот столбец объясняется несколькими способами в их документации. Вот одно объяснение:

Вы используете столбец Time, чтобы указать AutoML Tables, что время имеет значение для ваших данных; это не случайно распределено во времени. При указании столбца Time таблицы AutoML используют самые первые 80% строк для обучения, следующие 10% строк для проверки и последние 10% строк для тестирования.

У меня есть прочитайте это 100 раз и не можете решить, должны ли мои данные использовать или не использовать order_date в качестве временного столбца. Не так ли?

Меня также смущает вопрос, нужно ли мне предварительно агрегировать эти данные с определенным временным разрешением, прежде чем использовать их для обучения. Например, если я в конечном итоге хочу иметь возможность прогнозировать покупки по дням в 3 месяца в будущем, нужно ли обучать его данным, которые уже агрегированы по дням? Или AutoML уже позаботится об этом? Влияет ли это временное разрешение на качество модели?

...