Проблема при объединении столбцов ArrayType в Spark DataFrame - PullRequest
0 голосов
/ 02 мая 2018

Когда я пытаюсь объединить 3 столбца ArrayType в Spark DataFrame, я получаю ошибочные выходные данные в некоторых строках.

Так как некоторые DataFrame не имеют значений, поэтому, когда они объединяются - вывод получается как [walmart, []] (например,). Я не хочу, чтобы выходные данные отображали эти пустые значения. Например, Dataframe имеет имя столбца как concat_values ​​ и значения: -

[walmart, supercenter, walmart supercenter, [walmartsupercenter]]  
[walmart, []]  
[mobil, []] 
[[]]      
[dollar general]  
[marriott vacations, vacations worldwide, marriott vacations worldwide]

Вывод должен быть

[walmart, supercenter, walmart supercenter, [walmartsupercenter]]  
[walmart]  
[mobil] 
[]      
[dollar general]  
[marriott vacations, vacations worldwide, marriott vacations worldwide]

UDF, который я реализовал в коде: -

from pyspark.sql.functions import col, udf
from pyspark.sql.types import ArrayType, StringType
from pyspark.sql import functions as F

concat_string_arrays = F.udf(lambda w,x,y,z : w+x+y+z,ArrayType(StringType()))

Пожалуйста, помогите мне с этим. Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...