Относительно новый пользователь.В Pyspark как упорядочены прогнозируемые столбцы после моделирования.Например, в ситуации с тремя классами предположим, что ваши целевые метки 0, 1, 2
или "low", "moderate", "large"
.Вы, несомненно, можете сделать это, сравнив столбцы «вероятности» и «предсказания» - кажется, что Spark упорядочивает их в порядке возрастания - но ручная проверка этого неэффективна.
Я немного смущен тем, как кодирование вобщие работы.Я читал, что это может произойти в зависимости от размера классов или числового / текстового порядка классов.Может ли кто-нибудь затенить это?
Я предоставляю код ниже - данные взяты из самой Spark.
from pyspark.ml.classification import LogisticRegression
# Load training data
dat = spark \
.read \
.format("libsvm") \
.load("data/mllib/sample_multiclass_classification_data.txt")
lr = LogisticRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8)
# generate the train/test split.
(train, test) = dat.randomSplit([0.8, 0.2])
# Fit the model
lrModel = lr.fit(train)
# score the model on test data.
prediction = lrModel.transform(test)
prediction.select("probability", "prediction").show(5, False)