Что делает правильный параметр при создании гистограммы в R? - PullRequest
5 голосов
/ 27 декабря 2011

Я пытаюсь выяснить, что делает правильный параметр в функции Hist в R.К сожалению, документация неясна кому-то без глубокого понимания статистики, такой как я.

Документация как указана онлайн :

правильная логика;если TRUE, ячейки гистограммы - это интервалы, закрываемые справа (открытые слева).

Что означает интервалы, закрываемые справа (или открытые слева)?

Ответы [ 3 ]

17 голосов
/ 27 декабря 2011

При создании гистограмм некатегориальных данных (таких как pH, температура и т. Д.), Вам необходимо указать вещи, называемые «корзинами». В каждом бункере есть что-то, что называется интервал . Например, если у меня есть данные:

11  12  13  14  15  16  17  18  19

Я могу создать 5 корзин с интервалами, открытыми справа и слева:

1st bin: [10, 12)
2nd bin: [12, 14)
3rd bin: [14, 16)
4th bin: [16, 18)
5th bin: [18, 20)

Это означает, что первый контейнер будет «хранить» значения от 10 до 12, , включая 10, но не включая 12 . Обозначение интервала, использованное выше, является сокращением для этого:

1st bin: 10 ≤ x < 12
2nd bin: 12 ≤ x < 14
3rd bin: 14 ≤ x < 16
4th bin: 16 ≤ x < 18
5th bin: 18 ≤ x < 20

Таким образом, это означает, что значения 11 войдут в 1-й бин, а значение 12 - во второй бин, и т. Д. R выполнит этот процесс биннинга для вас, а затем нарисует гистограмму на основе количества элементов в каждом бине. , Для приведенных выше данных вы получите довольно неинтересную (или интересную, в зависимости от ваших ожиданий) гистограмму, которая в основном плоская, за исключением первого бина.

Следующие примеры иллюстрируют, что означают различные комбинации скобок и скобок при использовании интервальной записи (предположим, что x является элементом строки действительных чисел):

(1, 4) --> 1 < x < 4    left-open, right-open
[3, 7) --> 3 ≤ x < 7    left-closed, right-open
(2, 9] --> 2 < x ≤ 9    left-open, right-closed
[5, 6] --> 5 ≤ x ≤ 6    left-closed, right-closed

Обратите внимание, что вы не можете использовать скобки для бесконечностей, при условии, что вы не используете расширенную строку действительных чисел

(-∞, ∞)   -->   -∞ < x < ∞ 
(-∞, 20]  -->   -∞ < x ≤ 20 
[20, ∞)   -->   20 ≤ x < ∞
(1000, ∞) --> 1000 < x < ∞
(-∞, ∞]   -->   Invalid
(41, ∞]   -->   Invalid

Если я хочу, чтобы интервалы были открыты слева и справа, то ячейки будут выглядеть так:

1st bin: (10, 12] i.e. 10 < x ≤ 12
2nd bin: (12, 14]      12 < x ≤ 14
3rd bin: (14, 16]      14 < x ≤ 16
4th bin: (16, 18]      16 < x ≤ 18
5th bin: (18, 20]      18 < x ≤ 20

Видите разницу? В этом случае теперь значения 11 и 12 войдут в первый контейнер. Это может изменить внешний вид гистограммы в зависимости от того, как вы складываете данные. Теперь, на этот раз ваша гистограмма все еще почти плоская, но теперь 5-й бин отличается от остальных (только 1 точка данных вместо 2 для остальных).

Теперь, к счастью, в R вам не нужно самим задавать ячейки, но R достаточно хорош, чтобы спросить вас, хотите ли вы, чтобы ячейки были закрыты слева, открыты справа ([a, b)) или открыты слева правостороннее ((a, b]). Это разница, которую вы получаете с помощью правильного параметра в функции hist().

2 голосов
/ 27 декабря 2011

По умолчанию используется значение true = TRUE, которое дает интервалы в форме (a, b]. Давайте рассмотрим пример, чтобы понять, что это значит. Допустим, наши данные имеют значение 5. Давайте также скажем, что гистограмма используя точки останова 3, 4, 5, 6. Вопрос в том, в какой интервал должно попадать наше значение 5? Если мы используем right = TRUE, то фактические интервалы, которые используются, (3, 4], (4, 5], ( 5, 6]. Интервальная запись (4, 5] означает, что она включает в себя все значения от 4 до 5 - она ​​не включает в себя фактическое значение 4, но она включает в себя значение 5. Таким образом, наша точка данных 5 попадает в этот интервал.

Если бы вместо этого мы использовали право = ЛОЖЬ, интервалы имели бы вид [a, b), поэтому с такими же точками останова, как 3, 4, 5, 6, мы получили бы интервалы [3, 4), [4, 5) , [5, 6). На этот раз наша точка данных входит в интервал [5, 6), потому что этот интервал содержит 5, тогда как [4, 5) не содержит 5.

По сути, «правильный» параметр говорит R, что делать, когда точка данных попадает точно туда, где расположена точка останова.

1 голос
/ 27 декабря 2011

R использует полуоткрытые интервалы для бинов гистограммы.Этот параметр определяет, какая из левой или правой конечных точек включена в каждый полуоткрытый интервал.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...