У меня большой набор данных, состоящий из тысяч уникальных товаров и ежемесячных данных о продажах. Каждый элемент имеет несколько функций, которые включены в регрессию дерева с градиентом, написанную в pyspark. Моя цель состоит в том, чтобы прогнозировать данные по месяцам за 1 год.
При просмотре прогнозов я заметил, что некоторые товары имеют одинаковый прогноз, несмотря на то, что товары имеют разные характеристики и историю продаж. Есть ли параметр, который я не включаю, или что-то о способе разделения данных, который может быть причиной этого?
Когда я делаю прогноз ежемесячно на 12 месяцев, я вижу несколько одинаковых прогнозов для каждого. Пример ниже
Item1: 158
Item2: 4890
Item3: 158
Item4: 158