Я пытаюсь предсказать общие расходы потребителя из обследования потребительских расходов ( данные здесь ). Я выбрал такие переменные, как возраст, доход, город / село, пол, образование, чтобы предсказать общие расходы в домашнем хозяйстве.
Корреляция между доходом, расходами относительно меньше, а среднеквадратические прогнозы составляют ~ 3000 для данных со средним значением ~ 10000. Я использовал преобразование, нормализацию, масштабирование и перекрестную проверку для предварительной обработки данных. Тем не менее, ни одна из моделей не дает хороших результатов в прогнозировании общих расходов. Есть ли способ улучшить прогнозы? (Я попробовал Линейную регрессию, Лассо, KNN, Случайный лес, Алгоритмы повышения градиента)
Вот график рассеяния для доходов и расходов, график рассеяния для доходов против расходов
Я думаю модель неэффективна из-за меньшей корреляции. Есть идеи по решению таких ситуаций?