Я пытаюсь извлечь слова из столбца строк с помощью регулярного выражения pyspark.
Мой фрейм данных ниже:
ID, Code
10, A1005*B1003
12, A1007*D1008*C1004
result=df.withColumn('Code1', regexp_extract(col(Code), '\w+',0))
Выход:
ID, Code, Code1,
10, A1005*B1003, A1005
12, A1007*D1008*C1004, A1007
result=df.withColumn('Code1', regexp_extract(col(Code), '\w+',0))
Выход:
ID, Code, Code1,
10, A1005*B1003, A1005
12, A1007*D1008*C1004, A1007
Я хочу извлечь коды из столбца Код и хочу, чтобы мой DataFrame отображался, как показано ниже.
ID, Code, Code1, Code2, Code3
10, A1005*B1003, A1005, B1003, null
12, A1007*D1008*C1004, A1007, D1008, C1004