Spark пишет несколько файлов - PullRequest
       8

Spark пишет несколько файлов

1 голос
/ 01 октября 2019

У меня есть два кадра данных с разными условиями фильтрации. Мне нужно записать оба кадра данных в одну и ту же папку hdfs. Как я должен написать оба кадра данных в одной папке hugs.

1 Ответ

0 голосов
/ 01 октября 2019

Вы можете создать один отдельный кадр данных с преобразованием union:

scala> val firstDF = List((1,2,3),(4,5,6)).toDF("a","b","c")
firstDF: org.apache.spark.sql.DataFrame = [a: int, b: int ... 1 more field]

scala> firstDF.show
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  2|  3|
|  4|  5|  6|
+---+---+---+


scala> val secondDF = List((7,8,9),(10,11,12)).toDF("a","b","c")
secondDF: org.apache.spark.sql.DataFrame = [a: int, b: int ... 1 more field]

scala> secondDF.show
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  7|  8|  9|
| 10| 11| 12|
+---+---+---+


scala> val thirdDF = firstDF.union(secondDF)
thirdDF: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [a: int, b: int ... 1 more field]

scala> thirdDF.show
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  2|  3|
|  4|  5|  6|
|  7|  8|  9|
| 10| 11| 12|
+---+---+---+

Затем вы можете записать его в папку HDFS с предпочитаемым форматом сериализации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...