Вы можете создать один отдельный кадр данных с преобразованием union
:
scala> val firstDF = List((1,2,3),(4,5,6)).toDF("a","b","c")
firstDF: org.apache.spark.sql.DataFrame = [a: int, b: int ... 1 more field]
scala> firstDF.show
+---+---+---+
| a| b| c|
+---+---+---+
| 1| 2| 3|
| 4| 5| 6|
+---+---+---+
scala> val secondDF = List((7,8,9),(10,11,12)).toDF("a","b","c")
secondDF: org.apache.spark.sql.DataFrame = [a: int, b: int ... 1 more field]
scala> secondDF.show
+---+---+---+
| a| b| c|
+---+---+---+
| 7| 8| 9|
| 10| 11| 12|
+---+---+---+
scala> val thirdDF = firstDF.union(secondDF)
thirdDF: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [a: int, b: int ... 1 more field]
scala> thirdDF.show
+---+---+---+
| a| b| c|
+---+---+---+
| 1| 2| 3|
| 4| 5| 6|
| 7| 8| 9|
| 10| 11| 12|
+---+---+---+
Затем вы можете записать его в папку HDFS с предпочитаемым форматом сериализации.