У меня возникли проблемы с пониманием создания пользовательских преобразователей для конвейеров Pyspark.
Я пишу пользовательский преобразователь, который возьмет столбец данных Company
и удалит случайные запятые:
from pyspark.sql.functions import *
class DFCommaDropper(Transformer):
def__init__(self, *args, **kwargs):
self.name = CommaDropper
def transform(self,df):
df = df.withColumn('Company', regexp_replace('Company',',','')
return df
Приведенный выше код явно неверен.Я не уверен, что / как инициализировать это, а затем, как использовать инициализированный экземпляр класса в функции преобразования.
Заранее спасибо за вашу помощь.,