Scatterplot в RStudio с функцией ggplot - PullRequest
0 голосов
/ 03 ноября 2018

Я пытаюсь увидеть, что существует какая-то корреляция между уровнем образования и уровнем холестерина, используя данные из Системы наблюдения за поведенческим фактором риска для набора данных 2013 года. Содержание данных можно проверить по ссылке внизу: https://d18ky98rnyall9.cloudfront.net/_e34476fda339107329fc316d1f98e042_brfss_codebook.html?Expires=1541203200&Signature=WYq5YJFg5WgVOFV4dWPV~pPtu-31ubNEVxEYlNliJZpqZYXfZ741WN9n~RC~kcF0gE6AdxzzNFbiA7nv5DtQsxeWWs1Y9obwadm2PjV8eO~W0TI0YtyU~vmaWgozEkfbzIB17LP0MFY-dUffEsyb29~~JWYnQXHAZXdm-n5q108_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A##sleptim1

Есть две переменные, которые я использовал для EDA: "educa" (уровень образования) и "cholchk" (как долго проверяется холестерин). И вот код, который я создал:

> q1 <- select(brfss2013, cholchk, educa) %>%
        filter(!is.na(cholchk), !is.na(educa))

> q1 %>% group_by(cholchk) %>%    summary(count=n())

> ggplot(data = q1, aes(x = educa, y = cholchk)) +
    geom_point(shape=1) +
    geom_smooth(method=1) +
    xlab("educa = Education Level") +
    ylab ("cholchk: How Long Since Cholesterol Checked")

График был успешно создан. Но все точки на графике распределены равномерно (?), Поэтому невозможно проверить корреляцию. Не могли бы вы дать мне несколько советов, чтобы лучше выглядеть?

изображение рассеянного графика

Я не знаю, как загрузить файл ".RData" на мой вопрос. Так что это лучшее, что я могу сделать.

cholchk
В течение прошлого года: 321955
В течение последних 2 лет: 49354
В течение последних 5 лет: 29870
5 или более лет назад: 15683

образова
Никогда не посещал школу или только детский сад: 463
1–8 классы (начальная школа): 10189
9–11 классы (в некоторых старших классах): 21173
12 класс или GED (выпускник средней школы): 117152
Колледж от 1 года до 3 лет (некоторые колледжи или техникумы): 113993
Колледж 4 года и более (выпускник колледжа): 153892

...