Я пытаюсь реализовать udf, который принимает входной Dataframe и имя столбца, каждая запись во входном столбце должна анализировать все шаблоны регулярных выражений. Я новичок в pyspark.
import re
from pyspark.sql.functions import udf
def group_nm_transfrom(inDF,column_name):
column_name = re.findall(r's/ AND / /', column_name)
column_name = re.findall(r's/ ADVANCED | ADVANCE / ADV /', olumn_name)
column_name = re.findall(r's/ ASC | ASSOCI | ASSC | ASSOCIAT | ASSOCIA | ASSO | ASSOCS | AS | ASSOCIATES / ASSOC /', column_name)
return matches[0] if matches else None