Сравнение моделей с RMSE - PullRequest
0 голосов
/ 18 октября 2018

Я новичок в науке о данных и хотел бы попросить помощи в выборе модели.

Я построил 8 моделей, чтобы предсказать Зарплату по сравнению с годом опыта, названием должности и местоположением.Затем я попытался сравнить 8 моделей по RMSE.Но, наконец, я не уверен, какую модель мне выбрать.(Я думаю, я предпочитаю модель 8, потому что после теста со случайным лесом результат лучше, чем регрессия, тогда я использовал весь набор данных, чтобы сделать окончательную версию, но интерпретировать коэффики сложнее, чем регрессию). Можете ли вы помочь, какая модельты предпочитаешь и почему?И на самом деле, специалист по обработке данных выполняет такой процесс или у них есть автоматический способ справиться?

1 RMSElm1: модель: линейная регрессия, данные: поезд 80%, тест 20% Нет никакого вменения = 22067.58

2 RMSElm2: модель: линейная регрессия, данные: поезд 80%, тест 20%: Импутация некоторых мест, которые, как мне кажется, дают одинаковое представление о заработной плате = 22115,64

3 RMSElm3: модель: линейная регрессия + пошаговая, данные: поезд 80%, тест 20% Нет вменения = 22081.06

4 RMSEdeep1: модель: глубокое обучение (активация пакета H2O = «выпрямитель», скрытый c (5,5), эпох = 100,), данные: поезд 80%, тест 20%: нет вменения = 16265.13

5 RMSErf1: модель: Случайный лес (ntree = 10), данные: поезд 80%, тест 20% Нет никакого вменения = 14669.92

6 RMSErf2: модель: Случайный лес (ntree = 500), данные: Поезд 80%, тест 20% Нет вменения [1] 14669,92

7 RMSErf3: модель: Случайный лес (ntree = 10,) данные: K-Fold 10 Нет вменения [1] 14440,82

8 Модель RMSErf4: Случайный лес (ntree = 10), данные: весь набор данных Нет вменения [1] 13532.74

1 Ответ

0 голосов
/ 20 октября 2018

В регрессионных задачах mse или rmse - это способ определить, насколько хорошо работает ваша модель.Низкое значение rmse или mse является предпочтительным.Итак, перейдите к модели, которая дает наименьшее значение mse или rmse и попробуйте на тестовых данных.Методы ансамбля часто дают лучшие результаты.XGBoost часто используется в соревнованиях.

Возможен случай переобучения, когда вы можете получить очень низкое значение rmse в тренировочных данных, но слишком высокое значение rmse в тестовых данных.Таким образом, считается хорошей практикой использовать перекрестную проверку.

Вы можете проверить это: https://stats.stackexchange.com/questions/56302/what-are-good-rmse-values

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...