При создании гистограмм некатегориальных данных (таких как pH, температура и т. Д.), Вам необходимо указать вещи, называемые «корзинами». В каждом бункере есть что-то, что называется интервал . Например, если у меня есть данные:
11 12 13 14 15 16 17 18 19
Я могу создать 5 корзин с интервалами, открытыми справа и слева:
1st bin: [10, 12)
2nd bin: [12, 14)
3rd bin: [14, 16)
4th bin: [16, 18)
5th bin: [18, 20)
Это означает, что первый контейнер будет «хранить» значения от 10 до 12, , включая 10, но не включая 12 . Обозначение интервала, использованное выше, является сокращением для этого:
1st bin: 10 ≤ x < 12
2nd bin: 12 ≤ x < 14
3rd bin: 14 ≤ x < 16
4th bin: 16 ≤ x < 18
5th bin: 18 ≤ x < 20
Таким образом, это означает, что значения 11 войдут в 1-й бин, а значение 12 - во второй бин, и т. Д. R выполнит этот процесс биннинга для вас, а затем нарисует гистограмму на основе количества элементов в каждом бине. , Для приведенных выше данных вы получите довольно неинтересную (или интересную, в зависимости от ваших ожиданий) гистограмму, которая в основном плоская, за исключением первого бина.
Следующие примеры иллюстрируют, что означают различные комбинации скобок и скобок при использовании интервальной записи (предположим, что x является элементом строки действительных чисел):
(1, 4) --> 1 < x < 4 left-open, right-open
[3, 7) --> 3 ≤ x < 7 left-closed, right-open
(2, 9] --> 2 < x ≤ 9 left-open, right-closed
[5, 6] --> 5 ≤ x ≤ 6 left-closed, right-closed
Обратите внимание, что вы не можете использовать скобки для бесконечностей, при условии, что вы не используете расширенную строку действительных чисел
(-∞, ∞) --> -∞ < x < ∞
(-∞, 20] --> -∞ < x ≤ 20
[20, ∞) --> 20 ≤ x < ∞
(1000, ∞) --> 1000 < x < ∞
(-∞, ∞] --> Invalid
(41, ∞] --> Invalid
Если я хочу, чтобы интервалы были открыты слева и справа, то ячейки будут выглядеть так:
1st bin: (10, 12] i.e. 10 < x ≤ 12
2nd bin: (12, 14] 12 < x ≤ 14
3rd bin: (14, 16] 14 < x ≤ 16
4th bin: (16, 18] 16 < x ≤ 18
5th bin: (18, 20] 18 < x ≤ 20
Видите разницу? В этом случае теперь значения 11 и 12 войдут в первый контейнер. Это может изменить внешний вид гистограммы в зависимости от того, как вы складываете данные. Теперь, на этот раз ваша гистограмма все еще почти плоская, но теперь 5-й бин отличается от остальных (только 1 точка данных вместо 2 для остальных).
Теперь, к счастью, в R вам не нужно самим задавать ячейки, но R достаточно хорош, чтобы спросить вас, хотите ли вы, чтобы ячейки были закрыты слева, открыты справа ([a, b)
) или открыты слева правостороннее ((a, b]
). Это разница, которую вы получаете с помощью правильного параметра в функции hist()
.