Question

У меня есть df1:

              Name        Y_N FIPS  score1 score2
 1:        Alabama         0    1   2633      8
 2:         Alaska         0    2    382      1
 3:        Arizona         1    4   2695     41
 4:       Arkansas         1    5   2039     10
 5:     California         1    6  27813    524
 6:       Colorado         0    8   8609    133
 7:    Connecticut         1    9   5390    111
 8:       Delaware         0   10    858      3
 9:        Florida         1   12  14172    215
10:        Georgia         1   13   9847    308
11:         Hawaii         0   15    720      0
12:          Idaho         1   16    845      7

Я хотел бы выполнить T-тест, чтобы увидеть, отличается ли score1 в зависимости от Y_N. Затем я хотел бы построить эти два против друг друга. Я сделал блокпост, который выглядит следующим образом:

Вместо этого я хочу, чтобы мой график выглядел так, за исключением полос доверия: Я хочу сейчас перейдите от графического графика к графику, который показывает все отдельные точки, а затем среднюю горизонтальную линию с 95% доверительными интервалами. Как это сделать? Я также хотел бы добавить текст р-значения в углу графика.

Я мог бы попробовать:

text(x = max(df1$Y_N)+1, 
     y = min(df1$score1)+20000, 
     labels = paste0(
                     "\np-value = ",
                     round(coef_lm[2,4],5),            
     pos = 4)

Но я понимаю, что coef_lm[2,4],5 - это тестовая статистика из линейной модели. Как мне получить доступ к выводам t-теста?

dc37 · Answer 1 · 30 марта 2020

В качестве альтернативы, без установки ggpubr вы можете вычислить значение p за пределами ggplot2 и использовать функцию annotate для добавления значения в график:

pval <- t.test(score1~Y_N,data = df)$p.value

library(ggplot2)
ggplot(df, aes(x = as.factor(Y_N), y = score1, fill = as.factor(Y_N), color = as.factor(Y_N)))+
  geom_boxplot(alpha = 0.3, color = "black", outlier.shape = NA)+
  geom_jitter(show.legend = FALSE)+
  annotate(geom = "text", label = paste("p.value: ",round(pval,3)), x = 1.5, y = max(df$score1)*0.9)

РЕДАКТИРОВАТЬ: без коробочного графика

В качестве альтернативы боксплоту, если вы хотите иметь отдельные точки и столбец, представляющий среднее значение, вы можете сначала вычислить среднее значение для группы в наборе данных ne (здесь я использую пакет dplyr для этого):

library(dplyr)
Mean_df <- df %>% group_by(Y_N) %>% summarise(Mean = mean(score1))

# A tibble: 2 x 2
    Y_N  Mean
  <int> <dbl>
1     0 2640.
2     1 8972.

Затем вы можете построить отдельные точки, используя geom_jitter, а среднее значение, используя geom_errobar: вызов нового набора данных Mean_df:

library(ggplot2)
ggplot(df, aes(x = as.factor(Y_N), y = score1))+
  geom_jitter(show.legend = FALSE, width = 0.2)+
  geom_errorbar(inherit.aes = FALSE, data = Mean_df, 
                aes(x = as.factor(Y_N),ymin = Mean, ymax = Mean),
                color = "red",width = 0.2)+
  annotate(geom = "text", label = paste("p.value: ",round(pval,3)), 
           x = 1.5, y = max(df$score1)*0.9)

Воспроизводимый пример

structure(list(Name = c("Alabama", "Alaska", "Arizona", "Arkansas", 
"California", "Colorado", "Connecticut", "Delaware", "Florida", 
"Georgia", "Hawaii", "Idaho"), Y_N = c(0L, 0L, 1L, 1L, 1L, 0L, 
1L, 0L, 1L, 1L, 0L, 1L), FIPS = c(1L, 2L, 4L, 5L, 6L, 8L, 9L, 
10L, 12L, 13L, 15L, 16L), score1 = c(2633L, 382L, 2695L, 2039L, 
27813L, 8609L, 5390L, 858L, 14172L, 9847L, 720L, 845L), score2 = c(8L, 
1L, 41L, 10L, 524L, 133L, 111L, 3L, 215L, 308L, 0L, 7L)), row.names = c(NA, 
-12L), class = c("data.table", "data.frame"))

Ian Campbell · Answer 2 · 30 марта 2020

Я не уверен, почему вы добавили этот дополнительный пункт в свой код. Но на исходных данных вы можете использовать ggplot2 и ggpubr.

Редактировать Теперь больше похоже на рисование.

ggplot(df1,aes(x = as.factor(Y_N), y = score1)) + 
  geom_jitter(position = position_jitter(0.1)) + 
  stat_summary(fun.data = "mean_cl_normal", geom = "errorbar", width = 0.3) +
  stat_summary(fun = "mean", geom = "errorbar",  aes(ymax = ..y.., ymin = ..y..), col = "red", width = 0.5) +
  stat_compare_means(method="t.test") + 
  xlab("Group") + ylab("Score 1")

Исходные данные

df1 <- structure(list(Name = structure(1:12, .Label = c("Alabama", "Alaska", 
"Arizona", "Arkansas", "California", "Colorado", "Connecticut", 
"Delaware", "Florida", "Georgia", "Hawaii", "Idaho"), class = "factor"), 
    Y_N = c(0L, 0L, 1L, 1L, 1L, 0L, 1L, 0L, 1L, 1L, 0L, 1L), 
    FIPS = c(1L, 2L, 4L, 5L, 6L, 8L, 9L, 10L, 12L, 13L, 15L, 
    16L), score1 = c(2633L, 382L, 2695L, 2039L, 27813L, 8609L, 
    5390L, 858L, 14172L, 9847L, 720L, 845L), score2 = c(8L, 1L, 
    41L, 10L, 524L, 133L, 111L, 3L, 215L, 308L, 0L, 7L)), class = "data.frame", row.names = c("1:", 
"2:", "3:", "4:", "5:", "6:", "7:", "8:", "9:", "10:", "11:", 
"12:"))

rawr · Answer 3 · 30 марта 2020

dd <- structure(list(Name = c("Alabama", "Alaska", "Arizona", "Arkansas",  "California", "Colorado", "Connecticut", "Delaware", "Florida",  "Georgia", "Hawaii", "Idaho"), Y_N = c(0L, 0L, 1L, 1L, 1L, 0L,  1L, 0L, 1L, 1L, 0L, 1L), FIPS = c(1L, 2L, 4L, 5L, 6L, 8L, 9L,  10L, 12L, 13L, 15L, 16L), score1 = c(2633L, 382L, 2695L, 2039L,  27813L, 8609L, 5390L, 858L, 14172L, 9847L, 720L, 845L), score2 = c(8L,  1L, 41L, 10L, 524L, 133L, 111L, 3L, 215L, 308L, 0L, 7L)), row.names = c(NA,  -12L), class = c("data.table", "data.frame"))

## frame
boxplot(score1 ~ Y_N, dd, border = NA)

## 95% ci, medians
sp <- split(dd$score1, dd$Y_N)
sapply(seq_along(sp), function(ii) {
  x <- sp[[ii]]
  arrows(ii, quantile(x, 0.025), ii, quantile(x, 0.975), code = 3, angle = 90, length = 0.1)
  segments(ii - 0.05, median(x), ii + 0.05, col = 'red', lwd = 2)
})

points(dd$Y_N + 1, dd$score1, col = dd$Y_N + 1)

## t-test
lbl <- sprintf('p = %s', format.pval(t.test(score1 ~ Y_N, dd)$p.value, digits = 2))
mtext(lbl, at = par('usr')[2], adj = 1)

Chris Ruehlemann · Answer 4 · 30 марта 2020

Один из ваших вопросов касается доступа к статистике t.test. Вот ответ на этот вопрос. Предположим, у вас есть данные такого типа:

set.seed(12)
YN <- sample(0:1, 100, replace = T)    
score1 <- sample(500:1500, 100, replace = T)
df <- data.frame(YN, score1)

И, кроме того, предположим, что вы запустите и сохраните t.test следующим образом:

test <- tapply(df$score1, df$YN, t.test)

Затем вы можете получить доступ к статистике теста по чуть-чуть вот так, проиллюстрировано здесь для факторного уровня 0:

test$`0`$p.value #   p-value
test$`0`$conf.int #  confidence interval
test$`0`$estimate #  estimate
test$`0`$statistic # statistic

Теперь, очевидно, вы не захотите делать это постепенно, но более автоматизированным и систематизированным c способом. Вот как вы можете добиться этого:

df1 <- do.call(rbind, lapply(test, function(x) c(
  statistic = unname(x$statistic),
  ci = unname(x$conf.int),
  est = unname(x$estimate),
  pval = unname(x$p.value))))

Результат такой:

  statistic      ci1      ci2      est         pval
0  22.31155 837.3901 1003.263 920.3265 5.484012e-27
1  22.91558 870.5426 1037.810 954.1765 3.543693e-28

Как мне показать отдельные точки бокса в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне показать отдельные точки бокса в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы