Нормализующая переменная ответа для случайной регрессии леса - PullRequest
0 голосов
/ 06 февраля 2019

Я работаю над проектом, в котором я хочу сделать прогноз продаж по дням для продовольственной компании.Они продают как оптовые заказы розничным продавцам, так и напрямую клиентам, что означает, что они имеют как очень большие, так и очень маленькие значения продаж для каждой транзакции.Я выполнил некоторые базовые операции по очистке данных и разработке функций, а также запустил множество регрессионных алгоритмов, в том числе регрессию в случайных лесах и повышение градиента с помощью scikit learn.Я оценил модели, используя rmse и mape, но все модели дали ужасные результаты.Я думал о том, чтобы разделить данные о продажах, сгруппировав их по объему продаж, т.е. большие транзакции> 1000 и маленькие транзакции <1000.Однако это все равно дало довольно плохие результаты. </p>

Затем я выполнил преобразование Бокса-Кокса на сумму продаж (переменная отклика) и внезапно получил гораздо лучший результат, если <22.Действительно ли логично было бы нормализовать переменную ответа таким образом? </p>

Наконец, я мог бы попробовать другие алгоритмы, такие как леса Мондриана, но у меня нет опыта работы с ними, и, возможно, я неправильно понимаю, как они помогут мне в этой ситуации.

Я прошу прощения, если я упустил что-то очень основное здесь, я относительно неопытен в использовании машинного обучения.

...