Я новичок в науке о данных и хотел бы попросить помощи в выборе модели.
Я построил 8 моделей, чтобы предсказать Зарплату по сравнению с годом опыта, названием должности и местоположением.Затем я попытался сравнить 8 моделей по RMSE.Но, наконец, я не уверен, какую модель мне выбрать.(Я думаю, я предпочитаю модель 8, потому что после теста со случайным лесом результат лучше, чем регрессия, тогда я использовал весь набор данных, чтобы сделать окончательную версию, но интерпретировать коэффики сложнее, чем регрессию). Можете ли вы помочь, какая модельты предпочитаешь и почему?И на самом деле, специалист по обработке данных выполняет такой процесс или у них есть автоматический способ справиться?
1 RMSElm1: модель: линейная регрессия, данные: поезд 80%, тест 20% Нет никакого вменения = 22067.58
2 RMSElm2: модель: линейная регрессия, данные: поезд 80%, тест 20%: Импутация некоторых мест, которые, как мне кажется, дают одинаковое представление о заработной плате = 22115,64
3 RMSElm3: модель: линейная регрессия + пошаговая, данные: поезд 80%, тест 20% Нет вменения = 22081.06
4 RMSEdeep1: модель: глубокое обучение (активация пакета H2O = «выпрямитель», скрытый c (5,5), эпох = 100,), данные: поезд 80%, тест 20%: нет вменения = 16265.13
5 RMSErf1: модель: Случайный лес (ntree = 10), данные: поезд 80%, тест 20% Нет никакого вменения = 14669.92
6 RMSErf2: модель: Случайный лес (ntree = 500), данные: Поезд 80%, тест 20% Нет вменения [1] 14669,92
7 RMSErf3: модель: Случайный лес (ntree = 10,) данные: K-Fold 10 Нет вменения [1] 14440,82
8 Модель RMSErf4: Случайный лес (ntree = 10), данные: весь набор данных Нет вменения [1] 13532.74