Проблемы ggplot с функцией IQR для маркировки отдаленных наблюдений в R - PullRequest
0 голосов
/ 30 марта 2020

Я пытаюсь создать великолепный сюжет, который помечает только значения, которые являются "выбросами". Мои данные большие (десятки тысяч наблюдений) и десятки столбцов, некоторые из которых имеют NA с. Я попытался это:

ggplot(basisPerClaim, aes(group, value, color = gender)) +
  geom_point() +
  geom_text(aes(label=ifelse((value>4*IQR(value)|group>4*IQR(group)),label,"")), hjust=1.1) +
  theme_pubclean()

и ошибка в качестве возврата:

Ошибка в quantile.default (as.numeri c (x), c (0,25, 0,75), na.rm = na.rm: пропущенные значения и NaN не допускаются, если «na.rm» равен FALSE

. Кажется, что NA являются проблемными c, поэтому я попробовал это:

ggplot(basisPerClaim, aes(group, value, color = gender)) +
  geom_point() +
  geom_text(aes(label=ifelse(((value)>4*IQR(value, na.rm = TRUE)|group>4*IQR(group, na.rm = TRUE)),label,"")), hjust=1.1) +
  theme_pubclean()

Ошибка в rep (yes, length.out = len): попытка реплицировать объект типа 'closure'

Не уверены, что это значит?

В любом случае, я нашел похожую проблему здесь и реализовал их решение. К сожалению, это не для меня. Также я не могу поделиться своими данными, иначе я бы предоставил некоторые.

IQR = function(x) IQR(x, na.rm = TRUE)
ggplot(basisPerClaim, aes(group, value, color = gender)) +
  geom_point() +
  geom_text(aes(label=ifelse(((value)>4*IQR(value)|group>4*IQR(group)),label,"")), hjust=1.1) +
  theme_pubclean()

Ошибка в IQR (сумма, na.rm = ИСТИНА): неиспользованный аргумент (na.rm = ИСТИНА)

Как я могу исправить мою проблему? Или есть Альтернативный способ как обозначить все наблюдения, которые кажутся "выбросами"?

...