В ggplot2, что представляют собой концы линий коробочного графика? - PullRequest
41 голосов
/ 09 февраля 2011

Я не могу найти описание того, что представляют конечные точки линий боксплота.

Например, вот значения точек выше и ниже, где заканчиваются линии.enter image description here

(я понимаю, что верх и низ коробки - 25-й и 75-й процентиль, а центральная линия - 50-й).Я предполагаю, что есть точки выше и ниже линий, которые не представляют значения max / min.

Ответы [ 3 ]

60 голосов
/ 09 февраля 2011

«Точки» в конце коробочного графика представляют выбросы. Существует ряд различных правил для определения того, является ли точка выбросом, но метод, который используют R и ggplot, - это «правило 1.5». Если точка данных:

  • меньше Q1 - 1,5 * IQR
  • больше Q3 + 1,5 * IQR

тогда эта точка классифицируется как "выброс". Усы определены как:

верхний усик = мин (макс (х), Q_3 + 1,5 * IQR)

нижний усик = макс (мин (х), Q_1 - 1,5 * IQR)

где IQR = Q_3 - Q_1, длина блока. Таким образом, верхний усик расположен на меньшем максимального значения x и Q_3 + 1,5 IQR, тогда как нижний усик расположен на больше наименьшего значения х и Q_1 - 1,5 IQR.

Дополнительная информация

  • См. Страницу википедии для альтернативных правил выброса.
  • На самом деле существует множество способов вычисления квантилей. Взгляните на `? Quantile для описания девять различных методов.

Пример

Рассмотрим следующий пример

> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"

Это дает следующий сюжет: enter image description here

Когда мы уменьшаем диапазон от 1,7 до 1,5, мы уменьшаем длину вискера. Однако range=0 является особым случаем - он эквивалентен «range = infinity»

13 голосов
/ 09 февраля 2011

Я думаю, что ggplot использует стандартные значения по умолчанию, такие же, как boxplot: «усы распространяются на самую крайнюю точку данных, которая не более чем в [1,5] раза превышает длину блока от блока»

См .: boxplot.stats

...