Вы можете использовать пакет обобщенной линейной регрессии из библиотеки ML для получения значений p для логистической регрессии:
from pyspark.ml.regression import GeneralizedLinearRegression
glr = GeneralizedLinearRegression(family="binomial", link="logit", maxIter=10,
regParam=0.0)
model = glr.fit(dataset)
summary = model.summary
print("Coefficient Standard Errors: " + str(summary.coefficientStandardErrors))
print("T Values: " + str(summary.tValues))
print("P Values: " + str(summary.pValues))
Подробное объяснение вы можете найти здесь: https://spark.apache.org/docs/2.2.0/ml-classification-regression.html#generalized-linear-regression
Имейте в виду собственные значения (а также условие обратимости матрицы) для кадра данных для получения стандартных ошибок (и, следовательно, P-значений), так как в этом случае пакет предоставит вам ошибки.