Как оценить модель двоичной классификации НЛП pyspark? - PullRequest
0 голосов
/ 07 ноября 2018

У меня есть бинарная классификация NLP, модель LogisticRegression, и мне нужно ее оценить.
У меня есть этот код:
from pyspark.ml.evaluation import BinaryClassificationEvaluator
(trainingData, testData) = tfidf.randomSplit([0.7, 0.3], seed = 100)
REG = 0.1
lr_ev = LogisticRegression(featuresCol="features", labelCol='label', regParam=REG)
lrModel_ev = lr_ev.fit(trainingData)
predictions = lrModel_ev.transform(testData)
evaluator = BinaryClassificationEvaluator(predictionCol="prediction")
evaluator.evaluate(predictions)


Я хочу увидеть оценку модели. Я пытался использовать метод из документации, но он не работает для меня:
str_ev = evaluator.toString() print("str_ev: ", str_ev)
Я получил эту ошибку:
TypeError: __init__() got an unexpected keyword argument 'predictionCol'

Я изменил evaluator = BinaryClassificationEvaluator(predictionCol="prediction") на evaluator = BinaryClassificationEvaluator(rawPredictionCol="prediction")
И получил это:
py4j.protocol.Py4JJavaError: An error occurred while calling o183.evaluate. : java.lang.IllegalArgumentException: requirement failed: Column prediction must be of type org.apache.spark.mllib.linalg.VectorUDT@f71b0bce but was actually DoubleType.

У меня нет идей, как я могу просто оценить свою модель бинарной классификации.
Большое спасибо за любые предложения.
С уважением,
Владимир

...