Добавление метаданных в новое поле в pyspark легко с помощью
df.withColumn("foo", col("foo").alias("", metadata={...}))
НО Мне нужно сделать это в SqlTransformer, без настраиваемого трансформатора, как часть конвейера ML.
так что после того как я сделаю:
scalerTransformer = StandardScaler(inputCol='features',
outputCol='scaledFeatures')
Я хочу заменить имя столбца scaledFeatures на объекты.
что-то вроде:
fieldTransformer = SQLTransformer(statement="select scaledFeatures AS features FROM __THIS__")
но с метаданными, хранящимися в столбце feautres
причина, по которой я это делаю, заключается в отсутствии поддержки пользовательских преобразований и некоторых видов преобразователей в библиотеке JPMML-sparkml.