Укажите максимальный размер файла при записи данных в виде паркета - PullRequest
1 голос
/ 27 октября 2019

Когда я пытаюсь записать фрейм данных в виде паркета, размеры файлов неодинаковы. Хотя я не хочу делать файлы одинаковыми, я хочу установить максимальный размер для каждого файла. Я не могу позволить себе перераспределить данные, поскольку датафрейм отсортирован (Насколько я понимаю, перераспределение отсортированного фрейма данных может исказить порядок).

Любая помощь будет принята.

У меня естьпопадаются maxRecordsPerFile, но я не хочу ограничивать количество строк, и у меня может не быть полной информации о столбцах (общее количество столбцов и их типы). Поэтому сложно оценить размер файла на основе строк. Я также читал о размере паркетных блоков, и я не думаю, что это помогает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...