Как проверить, что выходные данные модели и распределение наблюдаемых данных похожи? - PullRequest
0 голосов
/ 29 марта 2019

Ищите советы о том, как определить, является ли распределение выходных данных моей модели аналогичным (и если да, то насколько похожим) распределению наблюдаемых наборов данных.

По сути, у меня есть модель GBM со средней реверсией, которая дает, казалось бы, хорошие результаты, когда я сравниваю ее распределение с данными наблюдений. Вы можете увидеть их PDF-файлы рядом на прилагаемой картинке.

PDF наблюдаемых и модельных данных

Оба набора данных огромны (~ 6 миллионов точек данных), и я начинаю подозревать, что это является частью проблемы ...

Я ищу способ убедиться, что распределения наборов данных похожи. Я попробовал тест с двумя выборками Колмогорова-Смирнова , t-тест с двумя выборками , но по какой-то причине оба они отвергли нулевую гипотезу (всегда, даже с разными Альфами). В некоторых темах я читал, что эти тесты ненадежны, когда применяются к огромным наборам данных, но консенсуса по этому поводу не было.

В настоящее время я использую Matlab, но я открыт для других, если это необходимо.

Любая помощь будет принята с благодарностью! Я в первую очередь ищу тест гипотезы для проверки, но если у вас есть другая идея, не сдерживайте ее!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...