Многомерное масштабирование для очень большого набора данных в R - PullRequest
0 голосов
/ 13 сентября 2018

Я довольно новичок в R, и я хочу визуализировать мою сегментацию k-средних 368 000 клиентов с 36 переменными в 6 сегментах.

Для этого я считаю, что мне нужно MDS набор данных, прежде чем я смогу построить его, но мне всегда кажется, что я сталкиваюсь с той же проблемой, что R не может выделить длину вектора такого размера.

Я изучал другие методы, такие как NMDS, но все еще сталкивался с похожими проблемами. Хотите знать, возможно ли даже сохранить значения масштабирования как нечто иное, чем вектор, как обходной путь?

Сознавая, что, возможно, это просто слишком велико, чтобы его можно было визуализировать, и, возможно, даже не стоит делать это в любом случае.

Любые советы или рекомендации приветствуются.

Код, который я пытаюсь использовать:

d=dist(MyData, method = "euclidean")

, которое выдает мне сообщение «Ошибка: невозможно выделить вектор размером 1,4 Мб»

Затем я намеревался использовать следующий код для подгонки и построения графика:

fit=cmdscale(d,eig=TRUE, k=2)
p = ggplot(data.frame(MyData), aes(fit$points[,1], fit$points[,2], color =  factor(Kmeans$cluster))) 
p <- p + theme(axis.title.y = element_text(size = rel(1.5), angle = 90))
p <- p + theme(axis.title.x = element_text(size = rel(1.5), angle = 00))
p= p + theme(axis.text=element_text(size=16,angle=90),axis.title=element_text(size=20,face="bold")) + geom_point(size=4)
p= p + theme(legend.text = element_text(size = 14, colour = "black"))
p= p + theme(legend.title = element_text(size = 18, colour = "black"))
p= p  + theme(legend.key.size = unit(1.5, "cm"))
p
...