Почему Apache Spark функция сохранения с папкой содержит несколько вложенных файлов? - PullRequest
0 голосов
/ 09 мая 2018

При сохранении фрейма данных spark, сохраните спарк в мультифайл внутри папки вместо одного файла.

df.write.format("json") \
                .option("header", "true") \
                .save('data.json', mode='append')

При запуске этого кода data.json будет именем папки, а не именем файла.

И я хочу знать, каковы преимущества этого?

1 Ответ

0 голосов
/ 09 мая 2018

Когда вы пишете фрейм данных или rdd, искра использует HadoopAPI под

Фактические данные, которые содержат результат, находятся в part- файлах, которые создаются с таким же количеством разделов на фрейме данных. Если у вас n чисел partition, то создается n количество файлов деталей.

Основным преимуществом нескольких файлов part является то, что если у вас есть несколько рабочих, вы можете получить доступ и записать файл параллельно.

Другие файлы, такие как _SUCCESS, должны указывать, что он успешно завершен, а .crc для проверки.

Надеюсь, это поможет вам.

...