«Точки» в конце коробочного графика представляют выбросы. Существует ряд различных правил для определения того, является ли точка выбросом, но метод, который используют R и ggplot, - это «правило 1.5». Если точка данных:
- меньше Q1 - 1,5 * IQR
- больше Q3 + 1,5 * IQR
тогда эта точка классифицируется как "выброс". Усы определены как:
верхний усик = мин (макс (х), Q_3 + 1,5 * IQR)
нижний усик = макс (мин (х), Q_1 - 1,5 * IQR)
где IQR = Q_3 - Q_1, длина блока. Таким образом, верхний усик расположен на меньшем максимального значения x и Q_3 + 1,5 IQR,
тогда как нижний усик расположен на больше наименьшего значения х и Q_1 - 1,5 IQR.
Дополнительная информация
- См. Страницу википедии для альтернативных правил выброса.
- На самом деле существует множество способов вычисления квантилей. Взгляните на `? Quantile для описания девять различных методов.
Пример
Рассмотрим следующий пример
> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"
Это дает следующий сюжет:
Когда мы уменьшаем диапазон от 1,7 до 1,5, мы уменьшаем длину вискера. Однако range=0
является особым случаем - он эквивалентен «range = infinity»