Когда я пытаюсь объединить 3 столбца ArrayType в Spark DataFrame, я получаю ошибочные выходные данные в некоторых строках.
Так как некоторые DataFrame не имеют значений, поэтому, когда они объединяются - вывод получается как [walmart, []] (например,). Я не хочу, чтобы выходные данные отображали эти пустые значения.
Например, Dataframe имеет имя столбца как concat_values и значения: -
[walmart, supercenter, walmart supercenter, [walmartsupercenter]]
[walmart, []]
[mobil, []]
[[]]
[dollar general]
[marriott vacations, vacations worldwide, marriott vacations worldwide]
Вывод должен быть
[walmart, supercenter, walmart supercenter, [walmartsupercenter]]
[walmart]
[mobil]
[]
[dollar general]
[marriott vacations, vacations worldwide, marriott vacations worldwide]
UDF, который я реализовал в коде: -
from pyspark.sql.functions import col, udf
from pyspark.sql.types import ArrayType, StringType
from pyspark.sql import functions as F
concat_string_arrays = F.udf(lambda w,x,y,z : w+x+y+z,ArrayType(StringType()))
Пожалуйста, помогите мне с этим. Спасибо