Question

Этот вопрос является почти точной копией требования здесь: Запись файлов в локальную систему с помощью Spark в режиме кластера

но мой запрос с изюминкой. На приведенной выше странице файлы из HDFS записываются непосредственно в локальную файловую систему с использованием spark, но после преобразования их в RDD.

Я нахожусь в поиске вариантов, доступных только с Dataframe; преобразование в СДР для огромных данных сказывается на использовании ресурсов.

jintocvg · Answer 1 · 14 мая 2019

Вы можете использовать приведенный ниже синтаксис для прямой записи фрейма данных в файловую систему HDFS.

df.write.format("csv").save("path in hdfs")

Для получения более подробной информации см. Spark doc: https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#generic-loadsave-functions

Spark записывает Dataframes непосредственно из Hive в локальную файловую систему

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark записывает Dataframes непосредственно из Hive в локальную файловую систему

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы