Вы можете попробовать что-то вроде ниже, оно должно работать:
from pyspark.sql.functions import arrays_zip
df_zip = df.withColumn(
"zipped", arrays_zip("column_1", "column_2")
)
df_zip.select("zipped").show(truncate=False)
AS согласно определению:
pyspark.sql.functions.arrays_zip(*cols)[source]
Функция сбора : Возвращает объединенный массивструктур, в которых N-ая структура содержит все N-ые значения входных массивов.
Параметры cols - столбцы массивов для объединения.
Функция сбора:Возвращает объединенный массив структур, в котором N-я структура содержит все N-е значения входных массивов.
Параметры cols - столбцы массивов, которые должны быть объединены.
Дополнительная ссылка:
https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=arrays_zip#pyspark.sql.functions.arrays_zip
Надеюсь, это поможет.