Как работает порядок столбцов прогнозируемой вероятности в Pyspark? - PullRequest
0 голосов
/ 27 сентября 2018

Относительно новый пользователь.В Pyspark как упорядочены прогнозируемые столбцы после моделирования.Например, в ситуации с тремя классами предположим, что ваши целевые метки 0, 1, 2 или "low", "moderate", "large".Вы, несомненно, можете сделать это, сравнив столбцы «вероятности» и «предсказания» - кажется, что Spark упорядочивает их в порядке возрастания - но ручная проверка этого неэффективна.

Я немного смущен тем, как кодирование вобщие работы.Я читал, что это может произойти в зависимости от размера классов или числового / текстового порядка классов.Может ли кто-нибудь затенить это?

Я предоставляю код ниже - данные взяты из самой Spark.

from pyspark.ml.classification import LogisticRegression

# Load training data
dat = spark \
    .read \
    .format("libsvm") \
  .load("data/mllib/sample_multiclass_classification_data.txt")

lr = LogisticRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8)

# generate the train/test split.
(train, test) = dat.randomSplit([0.8, 0.2])

# Fit the model
lrModel = lr.fit(train)

# score the model on test data.
prediction = lrModel.transform(test)

prediction.select("probability", "prediction").show(5, False)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...