Я тестирую разные модели для лучшего соответствия и наиболее надежной статистики моих данных Мой набор данных содержит более 50000 наблюдений, ок. более 99,3% данных являются нулями - такие 0,7% являются фактическими событиями.
В конечном итоге вижу: https://imgur.com/a/CUuTlSK
Я ищу, чтобы найти лучшее соответствие из следующих модели; Logisti c, Пуассон, NB, ZIP, ZINB, PLH, NBLH. (NB: отрицательно-биномиальное, ZI: с нулевым раздуванием, P: Пуассон, LH: Lo git Препятствие)
Первый способ, которым я попытался сделать это, был путем оценки двоичного ответа с регрессией logisti c .
Мои вопросы: Могу ли я использовать Пуассона для двоичной переменной или вместо этого я должен наложить двоичный файл с некоторыми целочисленными значениями? Например, с соответствующей потерей; если у = 1, то у_вал = у * потеря. В моем случае дисперсия y_val становится ок. 2.5E9. Я решил использовать бинарную переменную, потому что для этой цели не имеет значения, с чем по умолчанию работает компания, по умолчанию используется значение по умолчанию независимо от суммы.
И с регрессией logisti c и с Пуассоном, я получил некоторые ужасная статистика c: очень высокое значение отклонения (и 0-значение), ужасные оценки (= многие оценочные параметры равны 0 -> отношение шансов = 1), очень низкие доверительные интервалы, все кажется «неправильным». Если я преобразую переменную ответа в log (y_val) для y> 1 в Пуассоне, статистика, похоже, улучшится - однако это противоречит предположениям о реакции целочисленного счета в Пуассоне.
Я кратко проверил ZINB , это существенно не меняет статистику (= в данном случае это совсем не помогает).
Существует ли какой-либо правильный способ работы с таким набором данных? Я заинтересован в достижении наилучшего соответствия моим данным (о стартап-бизнесе и их статусе по умолчанию).
Данные очищены и готовы к установке. Есть ли что-то, о чем я должен знать, о чем я не упомянул?
Я использую процедуру genmod в SAS с dist = Poisson, zinb, zip et c.
Спасибо в авансовый.