Я использую модель логистической регрессии в наборе данных с более чем 2000 столбцами в Dataproc Pyspark. Я получаю список значимых коэффициентов и их индекс в результате. Но я не могу сопоставить эти коэффициенты с соответствующими именами важных столбцов.
Как собрать вместе значимые имена столбцов и их коэффициенты в pyspark в качестве фрейма данных? Вот мой пример кода -
model_1 = LogisticRegression(labelCol='target_r1',
featuresCol='features',
maxIter=20,
regParam=0.03,
elasticNetParam=0.02)
model_op = model_1.fit(train)
print(model_op.coefficients)
Результаты выглядят следующим образом:
(1925,[1,3,4,6,7,8,11,13,14,16,...],[0.12, 0.1, 1.12,..]
В виде списка значений переменных индекса и коэффициентов. Я хочу напечатать название коэффициента вместо этого. Как я могу напечатать имя переменной вместо индекса со значением coef?