Pyspark Pipeline Custom Transformer - PullRequest
0 голосов
/ 17 мая 2019

У меня возникли проблемы с пониманием создания пользовательских преобразователей для конвейеров Pyspark.

Я пишу пользовательский преобразователь, который возьмет столбец данных Company и удалит случайные запятые:

from pyspark.sql.functions import *

class DFCommaDropper(Transformer):

    def__init__(self, *args, **kwargs):
        self.name = CommaDropper

    def transform(self,df):
        df = df.withColumn('Company', regexp_replace('Company',',','')
        return df

Приведенный выше код явно неверен.Я не уверен, что / как инициализировать это, а затем, как использовать инициализированный экземпляр класса в функции преобразования.

Заранее спасибо за вашу помощь.,

...