Тест хи-квадрат, чтобы проверить соответствие моих данных распределению Пуассона - PullRequest
0 голосов
/ 17 марта 2020

Ниже приведен набор данных с числом случаев угона автомобилей в день недели в 2018 году, и я собираюсь использовать критерий хи-квадрат, чтобы проверить соответствие моих данных распределению Пуассона.

   DAY_WEEK DATE    NUMBER_OF_OCCURRENCES
0   Monday  2018-01-01  82
1   Monday  2018-01-08  162
2   Monday  2018-01-15  147
3   Monday  2018-01-22  133
4   Monday  2018-01-29  176
... ... ... ...
360 Sunday  2018-12-02  78
361 Sunday  2018-12-09  205
362 Sunday  2018-12-16  77
363 Sunday  2018-12-23  84
364 Sunday  2018-12-30  59

В моем df каждая строка соответствует дню недели в году. Таким образом, первая строка эквивалентна первому понедельнику, а строка 52 - 52 понедельника и т. Д.

Может кто-нибудь подсказать, как я тестирую Пуассона, используя хи-квадрат в python? Я занимался этим вопросом несколько дней и не нашел способа сделать это.

Заранее большое спасибо !!!

1 Ответ

1 голос
/ 17 марта 2020

Вам необходимо объединить данные в категории: найти разумную ширину ячейки (например, 20 краж) и подсчитать, сколько точек данных попадает в каждую ячейку. Сравните их с ожидаемыми значениями распределения Пуассона с тем же средним. Это сравнение, необходимое для выполнения теста хи-квадрат.

Обратите внимание, что для сохранения статистической достоверности вы должны выбрать ширину корзины до того, как сравните с ожидаемыми значениями. Выберите что-то, что даст вам приличное количество значений в модальном бункере, и с подходящей скоростью уходит.

Кроме того, обрежьте (справа) тест хи-квадрат после одного или двух бинов с 0 или 1 элемент, и ожидаемое значение комфортно ниже 1.


Обработка дней недели индивидуально качественно такая же, но количественно больше. У вас есть отдельная серия корзин для каждого дня недели. Вы можете использовать одну и ту же ширину корзины для всех дней или отрегулировать ее в соответствии с интенсивностью этого дня c.

Для наглядности предположим, что вы обнаружите, что 6 корзин удобны для каждого дня , Это даст вам 42 категории (6 корзин / день * 7 дней) для вашего теста хи-квадрат.

...