Сводка модели для GLM в Pyspark / SparkML отсутствует - PullRequest
0 голосов
/ 24 сентября 2019

Я сейчас знакомлюсь с Pyspark и SparkML.Для этого я использую титанический набор данных, чтобы обучить GLM прогнозировать «Тариф» в этом наборе данных.

Я внимательно слежу за документацией Spark.Я получаю рабочую модель (которую я называю glm_fare), но когда я пытаюсь оценить обученную модель, используя summary, я получаю следующее сообщение об ошибке:

RuntimeError: сводка по обучению недоступна дляthis GeneralizedLinearRegressionModel

Почему это так?

Код для обучения был таким:

glm_fare = GeneralizedLinearRegression(
            labelCol="Fare", 
            featuresCol="features", 
            predictionCol='prediction',
            family='gamma',
            link='log',
            weightCol='wght',
            maxIter=20
            )
    glm_fit = glm_fare.fit(training_df)

    glm_fit.summary

1 Ответ

1 голос
/ 24 сентября 2019

Документально подтверждено, что в модели GeneralizedLinearRegressionModel документы не может быть summary для модели.

Однако вы можете выполнить первоначальную проверку, чтобы избежать ошибки:

glm_fit.hasSummary(), которая является публичным логическим методом.Использование его в качестве

if glm_fit.hasSummary():
    print(glm_fit.summary)

Вот прямая ссылка на исходный код Pyspark и исходный код класса GeneralizedLinearRegressionTrainingSummary и где ошибка брошен

...