Как применить несколько шаблонов регулярных выражений в фрейме данных pyspark - PullRequest
0 голосов
/ 30 апреля 2018

Я пытаюсь реализовать udf, который принимает входной Dataframe и имя столбца, каждая запись во входном столбце должна анализировать все шаблоны регулярных выражений. Я новичок в pyspark.

import re
from pyspark.sql.functions import udf

def group_nm_transfrom(inDF,column_name):
    column_name = re.findall(r's/ AND /  /', column_name)
    column_name = re.findall(r's/ ADVANCED | ADVANCE / ADV /', olumn_name)
    column_name = re.findall(r's/ ASC | ASSOCI | ASSC | ASSOCIAT | ASSOCIA | ASSO | ASSOCS | AS | ASSOCIATES / ASSOC /', column_name)

    return matches[0] if matches else None
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...