PySpark mllib p-значения для логистической регрессии - PullRequest
0 голосов
/ 07 ноября 2018

В настоящее время я выполняю логистическую регрессию в PySpark с использованием пакета ML-Lib (Spark Version 2.1). Чтобы разобраться в коэффициентах и ​​проверить их статистическую значимость, я хотел бы исследовать соответствующие p-значения.

Есть ли способ получить p-vales с помощью пакета ML-Lib?

1 Ответ

0 голосов
/ 14 ноября 2018

Вы можете использовать пакет обобщенной линейной регрессии из библиотеки ML для получения значений p для логистической регрессии:

from pyspark.ml.regression import GeneralizedLinearRegression
glr = GeneralizedLinearRegression(family="binomial", link="logit", maxIter=10, 
regParam=0.0)
model = glr.fit(dataset)
summary = model.summary
print("Coefficient Standard Errors: " + str(summary.coefficientStandardErrors))
print("T Values: " + str(summary.tValues))
print("P Values: " + str(summary.pValues))

Подробное объяснение вы можете найти здесь: https://spark.apache.org/docs/2.2.0/ml-classification-regression.html#generalized-linear-regression

Имейте в виду собственные значения (а также условие обратимости матрицы) для кадра данных для получения стандартных ошибок (и, следовательно, P-значений), так как в этом случае пакет предоставит вам ошибки.

...