Spark (и все остальные инструменты экосистемы Hadoop) используют имена файлов в качестве средства для параллельного чтения и записи;задание spark создает столько файлов в папке, сколько имеется разделов в его RDD / Dataframe (часто называемом part-XXX
. При указании Spark на новый источник данных (будь то S3, локальная FS или HDFS) вы всегда указываете напапка, содержащая все файлы part-xxx
.
Я не знаю, какой инструмент вы используете, но если это зависит от соглашения о именах файлов, вам придется переименовать ваши файлы (используя вашу FSклиент) после завершения сеанса spark (это можно сделать в коде драйвера). Имейте в виду, что spark может (и обычно это делает) создавать несколько файлов. Вы можете преодолеть это, вызвав coalesc
в своем DataFrame / RDD.