У меня есть датафрейм из 286 столбцов и 157355 строк. Я хочу поднастроить строки, которые содержат одну или несколько из нескольких определенных факторных переменных, таких как F32, F341 и т. Д. Как только это будет завершено, я хочу определить, какие другие факторные переменные являются наиболее распространенными в строках подмножества.
Я попытался отфильтровать интересующие значения, но появляется сообщение об ошибке, в котором говорится, что данные должны быть числовыми, логическими или сложными, например;
d<- a %>%
filter_at(vars(f.41202.0.0:f.41202.0.65), all_vars('F32'))
Я также пробовал это сделать, но в результирующем кадре данных не было значений;
f <- a %>%
rowwise() %>%
filter(any(c(1:280) %in% c('F32', 'F320', 'F321', 'F322', 'F323',
'F328', 'F329', 'F330', 'F331', 'F332',
'F333', 'F334', 'F338', 'F339')))
то же самое произошло, когда я пытался поместить все соответствующие переменные в объект ICD;
f <- b %>%
rowwise() %>%
filter(any(c(1:286) %in% ICD))
Буду очень признателен за любые предложения, спасибо
мойданные выглядят так (извините, я не могу найти способ лучше отформатировать их на этой странице);
Row.name Var1 Var2 Var3 Var4
1 F3 NA NA M87
2 нет данных NA M87 нет данных
3 нет данных F3 нет данных K17
4 нет данных NA F3 M87
После подстановки строк на основе F3 это должно выглядеть следующим образом;
Row.name Var1 Var2 Var3 Var4
1 F3 нет данных NA M87
3 нет данных F3 нет данных K17
4 нет данных NA F3 M87
, поэтому те же переменные столбцы сохраняются, но строки без F3 удаляются
тогда я хотел бы перечислить другие переменные (кроме F3), основываясь на том, как часто они встречаются в этом подмножестве, в этом случае это будет
наиболее распространенным: M87
2-е место по распространенности: K17
Если это поможет, я пытаюсь идентифицировать людей с определенным заболеванием, тогда я попытаюсь выяснить, какие другие заболевания у этих людей чаще всего имеют
спасибоза помощь