сохранить CSV-файл в S3 Bucket из Pypark DataFrame - PullRequest
0 голосов
/ 25 июня 2019

Я хотел бы сохранить содержимое фрейма данных spark в CSV-файл в корзине s3:

df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite')

проблема в том, что он создает файл с именем: part-00000-fc644e84-7579-48.

Есть ли способ исправить имя этого файла. Например, test.csv?

Спасибо

Лучшее

1 Ответ

0 голосов
/ 25 июня 2019

Это невозможно, поскольку каждый раздел в задании будет создавать свой собственный файл и должен следовать строгому соглашению, чтобы избежать конфликтов имен.Рекомендуемое решение - переименовать файл после его создания.

Кроме того, если вы знаете, что пишете только один файл для каждого пути.Ex.s3n://bucket/test/csv/a.Тогда не имеет значения, как называется файл, просто прочитайте все содержимое этого уникального имени каталога.

Источники: 1. Указание имени файла при сохранении DataFrame в виде CSV 2. Сохранение данных в Spark в отдельном файле в папке hdfs

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...