Пентализованная логистика Ферта c регрессия - высокие значения хи-квадрат - PullRequest
0 голосов
/ 30 января 2020

Я анализирую набор данных обследования бюджетов домашних хозяйств с целью анализа того, тратят ли домохозяйства, которые тратят больше на алкоголь, больше на другие дискреционные предметы, такие как рестораны и развлечения (большой размер выборки более 200 000).

Учитывая большое количество домохозяйств, сообщивших о нулевых расходах по каждому из этих пунктов, в моей модели линейной регрессии были ненормально распределенные ошибки, и поэтому я использовал регрессию logisti c. Когда я провел регрессию логистики c, я натолкнулся на почти полное разделение. Основываясь на анализе литературы, кажется, что наиболее подходящей была регрессированная логистика c Ферта:

Regression <- logistf(restaurant_spender ~ alc_spender + income_quintiles + eduation_hh, data = alcohol, weights = weight, firth=FALSE)

Где:

  • restaurant_spender является двоичным ( = 1, если они что-то тратят на рестораны, и 0 в противном случае)

  • alc_spender такой же, как указано выше, но для алкоголя

  • come_quintiles - категориальная переменная, разделяющая домохозяйства в один из пяти квинтилей дохода

  • education_hh - это категориальная переменная, указывающая на самый высокий уровень образования главы домохозяйства.

И чтобы получить шансы крысы ios:

exp(coef(Regression))

Это дает отношение шансов, которое я ожидаю, и мои доверительные интервалы имеют смысл. Тем не менее, мои значения хи-квадрат все бесконечны.

Я добавил все свои независимые переменные в соответствие с моей зависимой переменной, и нет категорий с 0 (на самом деле, они распределены равномерно). Мои вопросы:

1) Я делаю что-то явно неправильное в проведении регрессии Фёрта по логистике c в R?

2) Являются ли бесконечные значения хи-квадрат неправдоподобными?

3) Есть ли какой-то другой способ в R, чтобы проверить, почему я получаю квазиразделение помимо табуляции независимых и зависимых переменных?

Любая помощь будет принята с благодарностью.

...