Как сопоставить коэффициент, полученный из модели логистической регрессии, с именами объектов в pyspark - PullRequest
1 голос
/ 03 мая 2019

Я построил модель логистической регрессии, используя конвейерный поток к той, которая указана в блоках данных. https://docs.databricks.com/spark/latest/mllib/binary-classification-mllib-pipelines.html

объекты (числовые и строковые элементы) были закодированы с использованием OneHotEncoderEstimator, а затем преобразованы с использованием стандартного масштабатора.

Я хотел бы знать, как сопоставить веса (коэффициенты), полученные из логистической регрессии, с именами объектов в исходном кадре данных.

Другими словами, как получить соответствующие характеристики для весов или коэффициентов, полученных из модели

Спасибо

Я попытался извлечь функции из lrModel.schema, который дал список structField, показывающий функции

Я пытался извлечь элементы из схемы и сопоставить их с весами, но безуспешно

from pyspark.ml.classification import LogisticRegression

# Create initial LogisticRegression model
lr = LogisticRegression(labelCol="label", featuresCol="scaledFeatures", maxIter=10)

# Train model with Training Data

lrModel = lr.fit(trainingData)

predictions = lrModel.transform(trainingData)

LRschema = predictions.schema

ожидаемый результат от извлечения списка кортежей (вес элемента, имя элемента)

...