Существует ли реализация Python для Андерсона-Дарлинга, которая возвращает значение p? - PullRequest
0 голосов
/ 12 июня 2018

Я хочу найти дистрибутив, который лучше всего подходит для некоторых данных.Обычно это будут данные измерений, например, сила или крутящий момент.

В идеале я хочу запустить Андерсона-Дарлинга с несколькими распределениями и выбрать распределение с наибольшим значением p.Это будет похоже на тест «Goodness of fit» в Minitab .У меня проблемы с поиском реализации Python Андерсона-Дарлинга, которая вычисляет значение p.

Я пробовал scipy's stats.anderson(), но он возвращает только AD-статистику и списоккритические значения с соответствующими уровнями значимости, а не само значение р.

Я также рассмотрел statsmodels, но, похоже, он поддерживает только нормальное распределение.Мне нужно сравнить соответствие нескольких распределений (нормальное, weibull, логнормальное и т. Д.).

Есть ли в Python реализация Anderson-Darling, которая возвращает p-значение и поддерживает ненормальные распределения?

1 Ответ

0 голосов
/ 12 июня 2018

Я бы просто ранжировал распределения по статистике соответствия, а не по p-значениям.Мы можем использовать статистику Андерсона-Дарлинга, Колмогорова-Смирнова или аналогичную статистику в качестве меры расстояния, чтобы оценить, насколько хорошо подходят различные распределения.

background:

p-значения для Андерсона-Дарлинга или Колмогорова-Смирнов зависит от того, оценены параметры или нет.В обоих случаях распределение не является стандартным распределением.

В некоторых случаях мы можем составить таблицу или использовать функциональное приближение к табличным значениям.Это тот случай, когда параметры не оцениваются, и если распределение представляет собой простое семейство масштабов местоположения без параметров формы.

Для распределений, имеющих параметр формы, распределение тестовой статистики, которое нам нужно для вычисленияр-значения зависят от параметров.То есть нам пришлось бы вычислять различные распределения или табличные p-значения для каждого набора параметров, что невозможно.Единственное решение для получения p-значений в этих случаях - либо с помощью начальной загрузки, либо путем моделирования статистики теста для конкретных параметров.

Техническое условие заключается в том, является ли статистика теста асимптотически центральной означает, что асимптотическое распределение тестовой статистики не зависит от конкретных параметров.

Использование критерия квадратуры для связанных данных требует меньше предположений, и мы можем вычислить его, даже когда параметры оценены.(Строго говоря, это верно только в том случае, если параметры оцениваются MLE с использованием данных в двоичном виде.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...