Что является более эффективным и точным алгоритмом для определения значения интервала выборки? - PullRequest
1 голос
/ 24 апреля 2011

Excel, Matplotlib, matlab, R и т. Д. Могут рисовать гистограмму.Во многих случаях мы должны изменить исходную большую выборку на набор интервалов. Вики сказал, что у нас есть разные алгоритмы для этой задачи, но наиболее популярным является выбор квадратного корня статья в вики .В тексте я не вижу доказательства этого утверждения.Поэтому мой вопрос: какой алгоритм лучше всего подходит для этой задачи?Что вы можете посоветовать прочитать об этой проблеме?

1 Ответ

2 голосов
/ 24 апреля 2011

Если вам нужно второе мнение, дополненное более тщательным обоснованием, попробуйте раздел 4.3 «Современные многомерные статистические методы ...» Изенмана. Для частного случая нормального распределения он предлагает ширину бина 3,4908 * sigma * n ^ (- 1/3), что довольно близко к выбору Фридмана-Диаконтиса в Википедии.

Однако Изенман также показывает, что для меры, которую он оптимизирует для получения этой ширины бина, гистограмма работает довольно плохо по сравнению с другими оценщиками, поэтому я предлагаю вам, если вы готовы усердно работать, чтобы получить как можно более точную оценку вы начинаете с перехода от гистограмм к оценкам плотности ядра (раздел 4.5 Izenman и http://en.wikipedia.org/wiki/Kernel_density_estimation)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...