Как вывести значимые переменные и коэффициенты из выходных данных модели логистической регрессии - Dataproc Pyspark - PullRequest
2 голосов
/ 30 октября 2019

Я использую модель логистической регрессии в наборе данных с более чем 2000 столбцами в Dataproc Pyspark. Я получаю список значимых коэффициентов и их индекс в результате. Но я не могу сопоставить эти коэффициенты с соответствующими именами важных столбцов.

Как собрать вместе значимые имена столбцов и их коэффициенты в pyspark в качестве фрейма данных? Вот мой пример кода -

model_1 = LogisticRegression(labelCol='target_r1', 
                             featuresCol='features',
                             maxIter=20, 
                             regParam=0.03, 
                             elasticNetParam=0.02)

model_op = model_1.fit(train)

print(model_op.coefficients)

Результаты выглядят следующим образом:

(1925,[1,3,4,6,7,8,11,13,14,16,...],[0.12, 0.1, 1.12,..]

В виде списка значений переменных индекса и коэффициентов. Я хочу напечатать название коэффициента вместо этого. Как я могу напечатать имя переменной вместо индекса со значением coef?

...