Question

При сохранении фрейма данных spark, сохраните спарк в мультифайл внутри папки вместо одного файла.

df.write.format("json") \
                .option("header", "true") \
                .save('data.json', mode='append')

При запуске этого кода data.json будет именем папки, а не именем файла.

И я хочу знать, каковы преимущества этого?

Shankar Koirala · Answer 1 · 09 мая 2018

Когда вы пишете фрейм данных или rdd, искра использует HadoopAPI под

Фактические данные, которые содержат результат, находятся в part- файлах, которые создаются с таким же количеством разделов на фрейме данных. Если у вас n чисел partition, то создается n количество файлов деталей.

Основным преимуществом нескольких файлов part является то, что если у вас есть несколько рабочих, вы можете получить доступ и записать файл параллельно.

Другие файлы, такие как _SUCCESS, должны указывать, что он успешно завершен, а .crc для проверки.

Надеюсь, это поможет вам.

Почему Apache Spark функция сохранения с папкой содержит несколько вложенных файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему Apache Spark функция сохранения с папкой содержит несколько вложенных файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы