Не уверен, что кто-то ответил на это - я искал, но пока у меня ничего не получалось.У меня есть очень большой набор данных, который я пытаюсь сузить.Мне нужно объединить три фактора в моей "PROG"
переменной ("Grad.2","Grad.3","Grad.H")
, чтобы они стали единой переменной ("Grad"
), где зависимая переменная ("NUMBER"
) каждого сопоставимого набора значений суммируется.
ie.
YEAR = "92/93" AGE = "20-24" PROG = "Grad.2" NUMBER = "50"
YEAR = "92/93" AGE = "20-24" PROG = "Grad.3" NUMBER = "25"
YEAR = "92/93" AGE = "20-24" PROG = "Grad.H" NUMBER = "2"
превращается в
YEAR = "92/93" AGE = "20-24" PROG = "Grad" NUMBER = "77"
Затем я хочу отбросить все остальные факторы для PROG
, чтобы я мог сравнивать показатели регистрации для Grad, не беспокоясь о другихфакторы (с которыми я имею дело отдельно).Таким образом, мои активные независимые переменные YEAR
и AGE
, в то время как зависимая переменная NUMBER
.
Я надеюсь, что это адекватно показывает мои данные:
structure(list
(YEAR = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L), .Label = c("92/93", "93/94", "94/95", "95/96", "96/97",
"97/98", "98/99", "99/00", "00/01", "01/02", "02/03", "03/04",
"04/05", "05/06", "06/07", "07/08", "08/09", "09/10", "10/11",
"11/12", "12/13", "13/14", "14/15", "15/16"), class = "factor"),
AGE = structure(c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 1L, 2L, 3L), .Label = c("1-19",
"20-24", "25-30", "31-34", "35-39", "40+", "NR", "T.Age"), class = c("ordered",
"factor")),
PROG = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L,
19L, 19L, 19L), .Label = c("T.Prog", "Basic", "Career", "Grad.H",
"Grad2", "Grad3", "Grad2.Qual", "Grad3.Qual", "Health.Res",
"NoProg.Grad", "NoProg.Other", "NoProg.Und.Grad", "NoProg.NoCred",
"Other", "Post.Und.Grad", "Post.Career", "Pre-U", "Career.Qual",
"Und.Grad", "Und.Grad.Qual"), class = "factor"),
NUMBER = c(104997L,
347235L, 112644L, 38838L, 35949L, 50598L, 5484L, 104991L,
333807L, 76692L)), row.names = c(7936L, 7948L, 7960L, 7972L,
7984L, 7996L, 8008L, 10459L, 10471L, 10483L), class = "data.frame")
С точки зрения почемуЯ использую факторы, я не знаю, как еще я должен ввести данные.Факторы имели смысл, и именно так R интерпретировал необработанные данные, когда я их загружал.
Я работаю над предложениями ниже.Пока не удалось, но я все еще учусь тому, как заставить R делать то, что я хочу, и часто путаюсь.Буду отвечать каждому из вас, как только у меня будет разумный ответ.(И как только я перестаю биться бедной головой по столу ... вздыхаю)