Spark записывает Dataframes непосредственно из Hive в локальную файловую систему - PullRequest
0 голосов
/ 14 мая 2019

Этот вопрос является почти точной копией требования здесь: Запись файлов в локальную систему с помощью Spark в режиме кластера

но мой запрос с изюминкой. На приведенной выше странице файлы из HDFS записываются непосредственно в локальную файловую систему с использованием spark, но после преобразования их в RDD.

Я нахожусь в поиске вариантов, доступных только с Dataframe; преобразование в СДР для огромных данных сказывается на использовании ресурсов.

1 Ответ

1 голос
/ 14 мая 2019

Вы можете использовать приведенный ниже синтаксис для прямой записи фрейма данных в файловую систему HDFS.

df.write.format("csv").save("path in hdfs")

Для получения более подробной информации см. Spark doc: https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#generic-loadsave-functions

...