KS-Test с дискретными распределениями - PullRequest
0 голосов
/ 18 февраля 2020

Я хочу запустить тест Колмогорова-Смирнова, чтобы проверить, исходит ли моя выборка из дискретно-равномерного распределения. Более конкретно, я использую KS-Test в контексте закона Бенфорда, который предполагает, что третьи или четвертые цифры чисел должны следовать дискретно-равномерному распределению.

По сути, мой образец выглядит так:

x = c(0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,8,9,9)

Я заметил функцию disc_ks_test пакета KSgeneral для использования KS-Test для дискретных распределений. Я также заметил, что более распространенная функция ks.test пакета dgof теперь также может тестировать дискретные распределения (на основе статьи Arnold / Emerson ).

ks.test(x,ecdf(0:9))
D = 0.038095, p-Value = 0.9996

и

disc_ks_test(x,ecdf(0:9))
D = 0.038095, p-Value = 0.9996

Итак, я рассчитал тест вручную в Excel, чтобы проверить, понял ли я расчеты статистики теста в R.

Расчеты D в Excel

Я почти уверен, что для непрерывных распределений тест-статистика c D является супремумом (или Максимум) из последних двух столбцов электронной таблицы Excel. Функции R просто принимают максимум Abs (F0-Fn) в качестве test-statisti c, но результаты для реальных данных намного более согласуются с результатами других тестов (Chi-Square). Теперь мне интересно, если функции R неверны или есть теоретическое объяснение, почему статистика теста теста KS вычисляется иначе, если я тестирую дискретные распределения.

...