Простой вопрос по статистике с (не очень) простым ответом - PullRequest
0 голосов
/ 06 мая 2020

Я работаю над проектом машинного обучения Kaggle (https://www.kaggle.com/c/house-prices-advanced-regression-techniques), и моя целевая переменная - "SalePrice" определенного дома.

После построения данных я вижу, что мои целевая переменная не показывает нормальное распределение и имеет положительную асимметрию

Так что я (вроде) нормализую ее, , принимая логарифм

Когда Я делаю прогнозы, используя регрессоры позже, буду ли я предсказывать журнал продажной цены? В таком случае, что мне делать?

Можно ли просто выполнить обратное преобразование или это неправильно с математической или статистической точки зрения?

1 Ответ

0 голосов
/ 06 мая 2020

Короткий ответ: да, ваша модель предсказывает логарифм цены дома, и нет ничего плохого в том, чтобы взять экспоненту от этого (математически говоря), чтобы вернуться к фактической цене дома.

Забыть статистику для на мгновение, если вы взяли журнал стоимости вашего дома для своих данных обучения, ваш алгоритм не «знает» этого, это просто другой набор чисел, и ваш регрессор будет просто соответствовать другой кривой *. 1003 *

Одна практическая проблема заключается в том, что когда вы берете экспоненту своего вывода, вам лучше быть вполне уверенным в точности предсказанного числа. Небольшая разница в прогнозируемых вами ценах на бревенчатые дома после возведения в степень может иметь большое значение для вашей продукции. Сможет ли ваша модель достичь такого уровня точности?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...