Найти важные предикторы в модели - PullRequest
0 голосов
/ 30 ноября 2018

Я хочу проанализировать и решить несколько вопросов из очень известного проекта под названием «Анализ качества красного вина», который можно бесплатно получить по следующей ссылке: https://www.kaggle.com/piyushgoyal443/red-wine-analysis/data

Проблема состоит в том, чтобы найти 2 самых важных предикторакачества красного вина.

Я приступил к использованию функции ols_all_step_possible () в пакете olsrr в R. В результирующей части он дает кадр данных для каждой комбинации предикторов с моделью и ее rsquare, Adj.rsquare, AIC, fpe, .......

Я обнаружил, что алкоголь и изменчивая кислотность являются двумя лучшими предикторами, основанными на высоком Adj.rsquare и низком (AIC, fpe) от результата:

Результаты

Изображение файла результата

У меня вопрос, достаточно ли взглянуть на rsquare и AIC модели, чтобы сказать, что эти переменные (включеныв модели и есть ли р-значения значимы) важны ли предикторы?Или мы должны разделить его на наборы тестов поездов и посмотреть тест MAPE, а затем решить, является ли он важным предиктором или нет?

1 Ответ

0 голосов
/ 30 ноября 2018

Я полагаю, что вы спрашиваете о методах, чтобы найти лучших предикторов.Вы можете использовать различные методы, чтобы узнать лучших предикторов.Для поиска предикторов вы должны использовать выбор объектов.Вы можете перейти по ссылке:

https://machinelearningmastery.com/feature-selection-with-the-caret-r-package/

Еще одна вещь R-квадрат, Adj R - квадрат - это параметры, которые определяют качество модели, а не отдельные предикторы.Да, вы можете видеть это на основе P-значения.То же самое касается AIC.Они наиболее полезны для выбора между двумя моделями.Модель с более высоким r-квадратом лучше, чем с меньшим.

...