Когда я пытаюсь записать фрейм данных в виде паркета, размеры файлов неодинаковы. Хотя я не хочу делать файлы одинаковыми, я хочу установить максимальный размер для каждого файла. Я не могу позволить себе перераспределить данные, поскольку датафрейм отсортирован (Насколько я понимаю, перераспределение отсортированного фрейма данных может исказить порядок).
Любая помощь будет принята.
У меня естьпопадаются maxRecordsPerFile, но я не хочу ограничивать количество строк, и у меня может не быть полной информации о столбцах (общее количество столбцов и их типы). Поэтому сложно оценить размер файла на основе строк. Я также читал о размере паркетных блоков, и я не думаю, что это помогает.