Когда вы пишете фрейм данных или rdd, искра использует HadoopAPI под
Фактические данные, которые содержат результат, находятся в part-
файлах, которые создаются с таким же количеством разделов на фрейме данных. Если у вас n
чисел partition
, то создается n
количество файлов деталей.
Основным преимуществом нескольких файлов part
является то, что если у вас есть несколько рабочих, вы можете получить доступ и записать файл параллельно.
Другие файлы, такие как _SUCCESS
, должны указывать, что он успешно завершен, а .crc
для проверки.
Надеюсь, это поможет вам.