Я только изучаю пакет mlr, R. Но весь учебник, который я могу найти, фокусируется на использовании каждой отдельной функции.Я надеюсь, что смогу найти исчерпывающий пример, включающий все этапы моделирования.
Допустим, есть данные:
mydata <- data.frame(type=c('a','a','b','b','c','d','d','d','e','a',
'a','c','b','e','a','d','w','t','r','a',
'b','c','d','w','q','f','d','s','r','r'),
value=c(1,2,1,2,1,3,1,2,3,4,
5,6,2,4,2,6,7,8,5,3,
1,5,6,2,8,6,3,4,6,3),
target=c('y','y','n','n','n','n','n','n','n','n',
'n','n','n','n','n','n','n','n','n','y',
'n','n','n','n','n','n','n','n','y','n'))
Вы можете видеть, что это несбалансированные данные.В целевом поле есть только 4 строки, обозначенные 'y', в то время как все остальные 26 строк имеют 'n'.Для задачи классификации, все шаги должны быть:
- перевод поля 'type' в фиктивные значения
- разбить данные на две части: обучение и тестирование
- передискретизируйте данные так, чтобы объем данных с целевым значением 'y' был аналогичен количеству данных с целевым значением 'n'.
- установите наборы гиперпараметров для случайного леса и xgboost соответственно.
- обучите две модели с использованием перекрестной проверки, скажем, k кратно 5.
- сравните все результаты, чтобы выбрать лучшую модель и лучший параметр.
- визуализируйте результат.
Обычно это нормальный процесс построения модели.Теперь у меня есть только создание фиктивных значений:
a <- mydata %>%
select(-target) %>%
createDummyFeatures(method = '1-of-n') %>%
mutate(target=mydata$target)
Я не знаю, как создать полную модель, используя mlr.Может ли кто-нибудь помочь мне с предоставлением всех деталей?