Понимание Seaborn Boxplot с примерами - PullRequest
0 голосов
/ 18 февраля 2019

Я пытаюсь понять граф морского графика с некоторыми примерами данных.Таким образом, используя набор данных "tips".

tips = sns.load_dataset('tips')

Прежде всего, используя 18 значений как:

tips = tips[0:18]

Необходимый набор данных:

1    8.77
2    10.27
3    10.33
4    10.34
5    14.78
6    14.83
7    15.04
8    15.42
9    16.29
10   16.99
11   18.43
12   21.01
13   21.58
14   23.68
15   24.59
16   25.29
17   26.88
18   35.26

Требуемый график выглядит следующим образом:

enter image description here

Чтобы получить хорошее понимание, я сам рассчитал Q1, Q2 и Q3.

Q2(Median): 16.64

Q1 Data:
9 values
[8.77, 10.27, 10.33, 10.34, 14.78, 14.83, 15.04, 15.42, 16.29]
Q1 Median: 14.78

Q3 Data:
9 values
[16.99, 18.43, 21.01, 21.58, 23.68, 24.59, 25.29, 26.88, 35.26]
Q3 Median: 23.68

Min: 8.77
Max: 35.26
Interquartile Range(IQR): 8.9

Five Number Summary:
8.77, 14.78, 16.64, 23.68, 35.26

ИтакПока это выглядит очень убедительно, так как сводка из пяти чисел совпадает с графиком.Теперь я добавляю еще один элемент в этот набор данных, используя:

tips = tips[0:19]

Новое значение - 16.97 Теперь многое изменится.Обновленный набор данных выглядит так:

1    8.77
2    10.27
3    10.33
4    10.34
5    14.78
6    14.83
7    15.04
8    15.42
9    16.29
10   16.97
11   16.99
12   18.43
13   21.01
14   21.58
15   23.68
16   24.59
17   25.29
18   26.88
19   35.26

Теперь график выглядит так:

enter image description here

Чтобы понять этот график, когда выполнялись ручные вычисления, тогдаэто было неубедительно.

Q2(Median): 16.97

Q1 Data:
9 values
[8.77, 10.27, 10.33, 10.34, 14.78, 14.83, 15.04, 15.42, 16.29]
Q1 Median: 14.78

Q3 Data:
10 values (Greater than or EQUAL TO MEDIAN add here)
[16.97, 16.99, 18.43, 21.01, 21.58, 23.68, 24.59, 25.29, 26.88, 35.26]
Q3 Median: 22.63

Min: 8.77
Max: 35.26
Interquartile Range(IQR): 7.85

Five Number Summary:
8.77, 14.78, 16.97, 22.63, 35.26

Как обсуждалось во многих статьях, усы должны быть Q3+1.5*IQR и Q1-1.5*IQR, но в данном случае этого не происходит:

1.5*7.85 = 11.775
For whisker with Q3:
22.63 + 11.775 = 34.405

Итак,на правой стороне графика усы должны идти с максимальным значением 34.405, но оно заканчивается на 27 approx.Мне нужно понять этот момент, как он рассчитывает это значение?ИЛИ Я сделал какую-то ошибку в моем ручном расчете?Спасибо

Ответы [ 2 ]

0 голосов
/ 18 февраля 2019

Строка документации немного вводит в заблуждение.Усы не распространяются на вычисленные значения, но достаточно для того, чтобы вместить все точки между ними (точки, которые не являются выбросами).В этом случае это 26,88, так как 35,26 является выбросом (за пределами Q3 + 1.5 * IQR).

0 голосов
/ 18 февраля 2019

На вашем втором графике есть выбросы, которые влияют на расчет.

Из документов вы можете посмотреть на параметр whis:

whis: float, необязательно

Пропорция IQR за пределами низкого и высокого квартилей, чтобы расширить усы сюжета.

Точки за пределами этого диапазона будут определены как выбросы.

Попробуйте с большими значениями для whis (2.0, 5.0, 10.0, ...)так, чтобы ваши точки данных всегда попадали в квартили.

...