эффективный способ выбрать 2 уровня переменной с несколькими уровнями - PullRequest
0 голосов
/ 19 января 2020

Мне нужен эффективный способ выбора 2 групп из многоуровневой факторной переменной.

Допустим, у меня есть следующие данные:

region<-gl(n = 4, k = 10, labels = c("N","E","S","W")) #a factor variable representing 4 regions: North,East,South, and West
h_wage<-sample(10:50, size=40, replace=TRUE)
df<-data.frame(region,h_wage)

Я хочу посмотреть на различия в размере эффекта между всеми возможными парами регионов. Функция, которую я использую, требует, чтобы переменная группировки имела только 2 уровня. Мой текущий метод состоял в том, чтобы подмножество данных несколько раз для каждой возможной пары, а затем использовать droplevels () для удаления неиспользуемых уровней из переменной. Это крайне неэффективно и требует нескольких строк кода. Моя фактическая переменная - 10 уровней. Я хотел бы знать более эффективный метод.

Для этого конкретного анализа я использую пакет effsize. Тем не менее, это проблема, с которой я сталкиваюсь при другом анализе, который требует, чтобы переменная группировки имела только 2 уровня. Поэтому я не ищу альтернативные способы вычисления величины эффекта, а альтернативные методы для выбора 2 уровней из данных, чтобы они могли пройти анализ, который требует, чтобы переменная группировки имела только 2 уровня.

...