Как улучшить прогнозы для обследования потребительских расходов? - PullRequest
0 голосов
/ 20 марта 2020

Я пытаюсь предсказать общие расходы потребителя из обследования потребительских расходов ( данные здесь ). Я выбрал такие переменные, как возраст, доход, город / село, пол, образование, чтобы предсказать общие расходы в домашнем хозяйстве.

Корреляция между доходом, расходами относительно меньше, а среднеквадратические прогнозы составляют ~ 3000 для данных со средним значением ~ 10000. Я использовал преобразование, нормализацию, масштабирование и перекрестную проверку для предварительной обработки данных. Тем не менее, ни одна из моделей не дает хороших результатов в прогнозировании общих расходов. Есть ли способ улучшить прогнозы? (Я попробовал Линейную регрессию, Лассо, KNN, Случайный лес, Алгоритмы повышения градиента)

Вот график рассеяния для доходов и расходов, график рассеяния для доходов против расходов

Я думаю модель неэффективна из-за меньшей корреляции. Есть идеи по решению таких ситуаций?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...