Могу ли я изменить имя файла, сгенерированное aws glue job? - PullRequest
0 голосов
/ 05 октября 2018

Я не нахожу способ изменить имя файла, сгенерированное заданиями клея.Он создает файлы, которые называются «run-xxxxx», но я хочу изменить это и использовать конкретное имя.Это возможно?PD: я использую скрипт Python (не Scala)

1 Ответ

0 голосов
/ 08 октября 2018

Spark (и все остальные инструменты экосистемы Hadoop) используют имена файлов в качестве средства для параллельного чтения и записи;задание spark создает столько файлов в папке, сколько имеется разделов в его RDD / Dataframe (часто называемом part-XXX. При указании Spark на новый источник данных (будь то S3, локальная FS или HDFS) вы всегда указываете напапка, содержащая все файлы part-xxx.

Я не знаю, какой инструмент вы используете, но если это зависит от соглашения о именах файлов, вам придется переименовать ваши файлы (используя вашу FSклиент) после завершения сеанса spark (это можно сделать в коде драйвера). Имейте в виду, что spark может (и обычно это делает) создавать несколько файлов. Вы можете преодолеть это, вызвав coalesc в своем DataFrame / RDD.

...