Пытаясь снизить уровни категориальной переменной, которую я хочу предсказать (на R) - PullRequest
0 голосов
/ 27 января 2019

Я работаю над задачей классификации с категориальной зависимой переменной с 99 уровнями (каждый соответствует стране)

Я использую дерево решений, и у меня не может быть больше 32 уровней, поэтомучто мне нужно уменьшить количество уровней.Я думал объединить страны по сходству так, чтобы те, которые похожи по 200 имеющимся у меня переменным (v1, v2, v3 ...), были сгруппированы.

Я думал об использовании UMAP вЧтобы уменьшить размерность набора данных, а затем сгруппировать страны (например, Норвегия + Швеция, Лаос + Камбоджа или что-то еще), но у меня сейчас такие трудные времена, вот что у меня пока (работа над подвыборкой)Я пытался построить это, но для меня это не имеет большого смысла

data = sample_n(surveydata, 15000)
cluster.data = data[, grep("v", colnames(surveydata))]
library(umap)

data.umap = umap(cluster.data)
plot(data.umap$layout, col=data$Nationality)

(Национальность - это категорические переменные с 99 уровнями, которые я должен предсказать)

знаете ли вы какой-либо метод, который яможно использовать для снижения уровня до менее чем 32?

Заранее спасибо за помощь!

...