Пуассоновская регрессия с перегрузкой нулями SAS - PullRequest
0 голосов
/ 18 февраля 2020

Я тестирую разные модели для лучшего соответствия и наиболее надежной статистики моих данных Мой набор данных содержит более 50000 наблюдений, ок. более 99,3% данных являются нулями - такие 0,7% являются фактическими событиями.

В конечном итоге вижу: https://imgur.com/a/CUuTlSK

Я ищу, чтобы найти лучшее соответствие из следующих модели; Logisti c, Пуассон, NB, ZIP, ZINB, PLH, NBLH. (NB: отрицательно-биномиальное, ZI: с нулевым раздуванием, P: Пуассон, LH: Lo git Препятствие)

Первый способ, которым я попытался сделать это, был путем оценки двоичного ответа с регрессией logisti c .

Мои вопросы: Могу ли я использовать Пуассона для двоичной переменной или вместо этого я должен наложить двоичный файл с некоторыми целочисленными значениями? Например, с соответствующей потерей; если у = 1, то у_вал = у * потеря. В моем случае дисперсия y_val становится ок. 2.5E9. Я решил использовать бинарную переменную, потому что для этой цели не имеет значения, с чем по умолчанию работает компания, по умолчанию используется значение по умолчанию независимо от суммы.

И с регрессией logisti c и с Пуассоном, я получил некоторые ужасная статистика c: очень высокое значение отклонения (и 0-значение), ужасные оценки (= многие оценочные параметры равны 0 -> отношение шансов = 1), очень низкие доверительные интервалы, все кажется «неправильным». Если я преобразую переменную ответа в log (y_val) для y> 1 в Пуассоне, статистика, похоже, улучшится - однако это противоречит предположениям о реакции целочисленного счета в Пуассоне.

Я кратко проверил ZINB , это существенно не меняет статистику (= в данном случае это совсем не помогает).

Существует ли какой-либо правильный способ работы с таким набором данных? Я заинтересован в достижении наилучшего соответствия моим данным (о стартап-бизнесе и их статусе по умолчанию).

Данные очищены и готовы к установке. Есть ли что-то, о чем я должен знать, о чем я не упомянул?

Я использую процедуру genmod в SAS с dist = Poisson, zinb, zip et c.

Спасибо в авансовый.

1 Ответ

0 голосов
/ 19 февраля 2020

Извините, мой представитель слишком низок, чтобы комментировать, поэтому это должен быть ответ.

Вы должны рассмотреть методику недостаточной выборки перед использованием любой регрессии / модели, потому что ваша цель ниже 5%, что делает ее предельно сложно предсказать.

Недосэмплирование - это метод вырезания нецелевых событий, чтобы увеличить соотношение целей, я действительно рекомендую рассмотреть его, я однажды использовал его в своей практике, и мне показалось, что очень полезно

...