Я работаю над кластеризацией для смешанных данных. Чтобы проверить мой алгоритм, мне нужно провести симуляцию с использованием сгенерированных данных. я знаю, чтобы сгенерировать числовой атрибут, используя rnorm, и для категориального использования образца письма может быть?
Но проблема в том, чтобы сделать связь между столбцами (числовой и категориальный атрибут).
я не могу просто сделать случайные значения и атрибуты и не иметь никаких отношений. отношения должны иметь смысл. например, если я только что сгенерировал случайное значение, скажем, у меня есть переменные продукта и цена.
product price
pen $500
это не имеет смысла правильно, отношения будут испорчены. кто-нибудь предлагает?
я делаю этот код, но, кажется, недостаточно хорош
n <- 500
prb <- 0.90
c1 = sample(2:5, 1)
c2 = sample(7:10, 1)
c3 = sample(12:15, 1)
x1 <- sample(c("A","B"), 1.5*n, replace = TRUE, prob = c(prb, 1-prb))
x1 <- c(x1, sample(c("A","B"), 1.5*n, replace = TRUE, prob = c(1-prb, prb)))
x1 <- as.factor(x1)
x2 <- sample(c("C","D","E"), n, replace = TRUE, prob = c(0.90, 0.05, 0.05))
x2 <- c(x2, sample(c("C","D","E"), n, replace = TRUE, prob = c(0.05, 0.9, 0.05)))
x2 <- c(x2, sample(c("C","D","E"), n, replace = TRUE, prob = c(0.05, 0.05, 0.9)))
x2 <- as.factor(x2)
x3 <- sample(c("X","Y"), 1.5*n, replace = TRUE, prob = c(0.6, 0.4))
x3 <- c(x3, sample(c("X","Y"), 1.5*n, replace = TRUE, prob = c(0.4, 0.6)))
x3 <- as.factor(x3)
x4 <- c(rnorm(n, mean = c1), rnorm(n, mean = c2), rnorm(n, mean = c3))
x5 <- c(rnorm(n, mean = c1+20), rnorm(n, mean = c2+30), rnorm(n, mean = c3+40))
x <- data.frame(x1,x2,x3,x4,x5)