Как Spark загружает упорядоченные паркетные файлы с заказом? - PullRequest
0 голосов
/ 30 мая 2019

После того, как я отсортировал все записи и использовал функцию write() для S3, я хочу перезагрузить данные с точно таким же порядком и теми же разделами.

Я пытался использовать read() и *Функция 1005 *, но ничего из этого не работает.У нас есть способ загрузить файлы разделенного паркета с тем же порядком и разделами?

1 Ответ

0 голосов
/ 30 мая 2019

если read () и load () не помогли, я бы предложил прочитать имена файлов из S3 и упорядочить их так, как вам нужно, а затем прочитать эти файлы в порядке в искре.Вы всегда можете создать свой DataFrame (если вы продолжаете добавлять к нему данные из этих разделов, которые вы только что прочитали)

...