Question

Я хотел бы записать таблицу искр в виде файлов паркета, где каждое отдельное значение в столбце отображается только в одном файле. Я мог бы добиться этого, имея один файл на уникальное значение, используя какой-то вариант .partitionby("mycol"). Однако у меня может быть много уникальных значений, и у меня будут значительные накладные расходы, связанные с обработкой тысяч файлов.

В идеале у меня было бы следующее:

Как можно меньше файлов, каждый из которых не должен превышать ограничение размера несжатой группы строк Amazon S3 Select <= 256 МБ <a href="https://docs.aws.amazon.com/AmazonS3/latest/dev/selecting-content-from-objects.html#selecting-content-from-objects-requirements-and-limits" rel="nofollow noreferrer"> source
Все строки с определенным значением в данном столбце находятся в одном файле.

Если кто-то знает, как этого добиться, это будет фантастически c.

(Если это имеет значение, я использую pyspark, но при необходимости могу использовать scala)

Spark записывает паркет, разбитый на столбцы, при объединении небольших файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark записывает паркет, разбитый на столбцы, при объединении небольших файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы