R: график переменных, где значения основаны на количестве строк для конкретной комбинации - PullRequest
0 голосов
/ 15 мая 2018

У меня есть вопрос, который я не могу понять.Так что, может быть, если мое объяснение вопроса слишком расплывчато, пожалуйста, не стесняйтесь задавать вопрос, чтобы прояснить себя.

У меня есть Tibble в R 3000+ наблюдений (рефералов) врачей общей практики [GP] (см. Пример для подмножества данных).Я хотел бы построить данные, например, используя ggplot.Скажем, я хотел бы показать, как часто ГП ссылается в целом (это будет количество строк для этого конкретного имени), как бы я это сделал?Другая колонка в таблице содержит названия учреждений, на которые они ссылались.Скажем, я хочу построить график, как часто они ссылались на конкретное учреждение.Значения будут соответствовать количеству строк для этой конкретной комбинации, я прав?Кто-нибудь знает способ сделать это?

Пример данных:

structure(list(LAST_NAME_GP = c("NOORDHOF", "ONBEKEND", "RAHIMTOOLA", 
"HIEMSTRA", "VIS", "OLDENBURG", "SLACHTER", "NOORDHOF", "VOSKUILEN", 
"STEVENS", "COMANS", "HIJMERING", "PHILIPS", "VIS", "LOUTER"), 
    INSTITUTION = c("OPVOEDPOLI B.V.", "PARLAN", "PARLAN", "PARLAN", 
    "OPVOEDPOLI B.V.", "TRIVERSUM", "ALKMAARSE PSYCHOLOGENPRAKTIJK", 
    "TRIVERSUM", "STICHTING KRAM", "TRIVERSUM", "TRIVERSUM", 
    "TRIVERSUM", "OPVOEDPOLI B.V.", "TRIVERSUM", "ELINE BIESHEUVEL"
    )), row.names = c(NA, -15L), class = c("tbl_df", "tbl", "data.frame"
))

sample
# A tibble: 15 x 2
   LAST_NAME_GP  INSTITUTION                 
   <chr>         <chr>                     
 1 NOORDHOF      OPVOEDPOLI B.V.           
 2 ONBEKEND      PARLAN                    
 3 RAHIMTOOLA    PARLAN                    
 4 HIEMSTRA      PARLAN                    
 5 VIS           OPVOEDPOLI B.V.           
 6 OLDENBURG     TRIVERSUM                 
 7 SLACHTER      ALKMAARSE PSYCHOLOGENPRAK~
 8 NOORDHOF      TRIVERSUM                 
 9 VOSKUILEN     STICHTING KRAM            
10 STEVENS       TRIVERSUM                 
11 COMANS        TRIVERSUM                 
12 HIJMERING     TRIVERSUM                 
13 PHILIPS       OPVOEDPOLI B.V.           
14 VIS           TRIVERSUM                 
15 LOUTER        ELINE BIESHEUVEL

Обратите внимание: в моем примере данные GP могут встречаться дважды, но в реальном наборе данных они встречаются, скажем, 200 раз.

1 Ответ

0 голосов
/ 15 мая 2018

Вы можете использовать гистограмму ggplot для первой части вашей проблемы.Поскольку вы хотите построить график, как часто ГП ссылался в общей сложности , гистограмма кажется быстрым решением:

ggplot(data=sample, aes(x=LAST_NAME_GP))+geom_bar()

Возвращает гистограмму, которая показывает, как часто ссылается GP.в целом.

Во второй части вашего вопроса, пытаясь визуализировать, как часто врач общей практики ссылается на конкретное учреждение, вы можете использовать facet_wrap, который красиво отображает эту информацию без риска переполнения.

Чтобы использовать facet_wrap для отображения значений LAST_NAME_GP и INSTITUTION с большим эффектом:

library(dplyr)
library(ggplot2)
sample %>% 
  ggplot(aes(x=INSTITUTION))+
  geom_bar()+
  facet_wrap(~LAST_NAME_GP)+
  coord_flip()

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...