R - выборка двух коррелированных переменных - PullRequest
0 голосов
/ 05 октября 2018

У меня есть две полиномиальные переменные (например, возрастная группа и цвет).

ageGroup <- c(35,40,45,50)
color    <- c("Red", "Blue", "Yellow")

Я хочу иметь возможность нарисовать эти две переменные для 100 наблюдений с равной вероятностью.

n = 100
age   <- sample(ageGroup, 100, replace = T)
color <- sample(color,    100, replace = T)

Если мы предположим, что из некоторой наблюдаемой таблицы частот видно, что возраст 35 и 40 лет также не может быть «красным», как мне выбрать, где эти две возрастные группы имели бы одинаковую вероятность изобразить «синий» и «желтый» (а не «красный»)?)?

Стоит ли разбивать выборку по возрастным группам или есть более сложный статистический подход?

Спасибо!

1 Ответ

0 голосов
/ 05 октября 2018

Вот один из подходов.Я не уверен, соответствует ли это вашему требованию "с равной вероятностью".Я настроил это так, что каждая «допустимая» комбинация color-ageGroup будет нарисована с равной вероятностью.

# sample data
ageGroup <- c(35,40,45,50)
color    <- c("Red", "Blue", "Yellow")

# get all combinations of ageGroup and color
df <- expand.grid(ageGroup, color)
names(df) <- c("ageGroup", "color")

# remove red-35 and red-40
subdf <- df[!(df$color=="Red" & df$ageGroup %in% c(35, 40)), ]

# sample from the remaining combinations, each with equal probability
N <- nrow(subdf)
result <- subdf[sample(1:N, 100, T), ]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...