Я хотел бы записать таблицу искр в виде файлов паркета, где каждое отдельное значение в столбце отображается только в одном файле. Я мог бы добиться этого, имея один файл на уникальное значение, используя какой-то вариант .partitionby("mycol")
. Однако у меня может быть много уникальных значений, и у меня будут значительные накладные расходы, связанные с обработкой тысяч файлов.
В идеале у меня было бы следующее:
- Как можно меньше файлов, каждый из которых не должен превышать ограничение размера несжатой группы строк Amazon S3 Select <= 256 МБ <a href="https://docs.aws.amazon.com/AmazonS3/latest/dev/selecting-content-from-objects.html#selecting-content-from-objects-requirements-and-limits" rel="nofollow noreferrer"> source
- Все строки с определенным значением в данном столбце находятся в одном файле.
Если кто-то знает, как этого добиться, это будет фантастически c.
(Если это имеет значение, я использую pyspark, но при необходимости могу использовать scala)