подсчет уникального идентификатора и расслаивание - PullRequest
0 голосов
/ 12 февраля 2019

Итак, у меня есть большой набор данных с 89 переменными, где несколько являются уникальными идентификаторами, приписывающими данные в реляционной БД.Я хочу видеть частоту уникальных идентификаторов как перекрестную ссылку на вторую переменную, которая является фактором?

т.е. это не работает, но, как я думаю, будет работать -

length(unique(data$PID ~ data$ICD_grouping)

возвращениетаблица типа

ICD_grouping        unique.PID
C43                   5
C47/C49               1
C50                   2
C56                   1
C57-C58               1
C80                   1

Пример данных

 PID ICD_Grouping
1     1          C80
2   918          C43
3   919          C43
4   919          C43
5  1284             
6  1285             
7   550          C43
8   550          C43
9   550          C43
10  550          C50
11  920          C43
12  920          C43
13  921          C50
14  921          C56
15  921       C57-58
16  921       C57-58
17  549          C43
18  549          C43
19  922       C47/49
20  551          C43

1 Ответ

0 голосов
/ 12 февраля 2019

Мне не совсем понятна ваша формулировка проблемы, но при условии, что я вас правильно понял (к сожалению, вы не предоставили пример данных), мы можем использовать table.Вот воспроизводимый минимальный пример, основанный на mtcars

table(mtcars$gear, mtcars$carb)
#
#    1 2 3 4 6 8
#  3 3 4 3 5 0 0
#  4 4 4 0 4 0 0
#  5 0 2 0 1 1 1

. Вывод является объектом типа table и показывает частоту для значений для mtcars$gear (строки) и mtcars$carb (столбцы).,Если вы предпочитаете длинную data.frame, мы можем сделать

as.data.frame(table(mtcars$gear, mtcars$carb))
#   Var1 Var2 Freq
#1     3    1    3
#2     4    1    4
#3     5    1    0
#4     3    2    4
#5     4    2    4
#6     5    2    2
#7     3    3    3
#8     4    3    0
#9     5    3    0
#10    3    4    5
#11    4    4    4
#12    5    4    1
#13    3    6    0
#14    4    6    0
#15    5    6    1
#16    3    8    0
#17    4    8    0
#18    5    8    1

Здесь Var1 соответствует значениям mtcars$gear и Var2 значениям mtcars$carb.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...