Question

Я попытался выполнить одномерный анализ (двоичная логистика c регрессия, одна особенность каждый раз) в Python с помощью statsmodel для вычисления значения p для другой функции.

for f_col in f_cols:
    model = sm.Logit(y,df[f_col].astype(float))
    result = model.fit()
    features.append(str(result.pvalues).split('   ')[0])
    pvals.append(str(result.pvalues).split('   ')[1].split('\n')[0])

df_pvals = pd.DataFrame(list(zip(features, pvals)), 
           columns =['features', 'pvals']) 
df_pvals

Однако результат в SPSS другой. Значение p NYHA в методе sm.Logit равно 0. И все значения p различны.

Правильно ли использовать sm.Logit в statsmodel для выполнения бинарной логистики c регрессии?
Почему есть разница между результатами? Возможно sm.Logit использовать регуляризацию L1?
Как мне получить то же самое?

Большое спасибо!

David Nichols · Answer 1 · 16 января 2020

Процедуры регрессионного моделирования SPSS включают в себя постоянные или перехватывающие термины автоматически, если только им не сказано этого делать. Как упоминает Джозеф, для statsmodels требуется явное добавление перехвата.

Различное p-значение логистики c регрессии в SPSS и statsmodels

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Различное p-значение логистики c регрессии в SPSS и statsmodels

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы