Различное p-значение логистики c регрессии в SPSS и statsmodels - PullRequest
0 голосов
/ 12 января 2020

Я попытался выполнить одномерный анализ (двоичная логистика c регрессия, одна особенность каждый раз) в Python с помощью statsmodel для вычисления значения p для другой функции.

for f_col in f_cols:
    model = sm.Logit(y,df[f_col].astype(float))
    result = model.fit()
    features.append(str(result.pvalues).split('   ')[0])
    pvals.append(str(result.pvalues).split('   ')[1].split('\n')[0])

df_pvals = pd.DataFrame(list(zip(features, pvals)), 
           columns =['features', 'pvals']) 
df_pvals

Однако результат в SPSS другой. Значение p NYHA в методе sm.Logit равно 0. И все значения p различны. enter image description here

  1. Правильно ли использовать sm.Logit в statsmodel для выполнения бинарной логистики c регрессии?
  2. Почему есть разница между результатами? Возможно sm.Logit использовать регуляризацию L1?
  3. Как мне получить то же самое?

Большое спасибо!

1 Ответ

0 голосов
/ 16 января 2020

Процедуры регрессионного моделирования SPSS включают в себя постоянные или перехватывающие термины автоматически, если только им не сказано этого делать. Как упоминает Джозеф, для statsmodels требуется явное добавление перехвата.

...