Вот одно из предложенных решений. Вы можете организовать ваше поле sal в массивы, используя $concatArrays
в MongoDB, прежде чем экспортировать его в Spark. Затем запустите что-то вроде этого
#df
#+---+-----+------------------+
#| id|empno| sal|
#+---+-----+------------------+
#| 1| 101|[1000, 2000, 1500]|
#| 2| 102| [1000, 1500]|
#| 3| 103| [2000, 3000]|
#+---+-----+------------------+
import pyspark.sql.functions as F
df_new = df.select('id','empno',F.explode('sal').alias('sal'))
#df_new.show()
#+---+-----+----+
#| id|empno| sal|
#+---+-----+----+
#| 1| 101|1000|
#| 1| 101|2000|
#| 1| 101|1500|
#| 2| 102|1000|
#| 2| 102|1500|
#| 3| 103|2000|
#| 3| 103|3000|
#+---+-----+----+