Spark записывает паркет, разбитый на столбцы, при объединении небольших файлов - PullRequest
0 голосов
/ 28 апреля 2020

Я хотел бы записать таблицу искр в виде файлов паркета, где каждое отдельное значение в столбце отображается только в одном файле. Я мог бы добиться этого, имея один файл на уникальное значение, используя какой-то вариант .partitionby("mycol"). Однако у меня может быть много уникальных значений, и у меня будут значительные накладные расходы, связанные с обработкой тысяч файлов.

В идеале у меня было бы следующее:

  1. Как можно меньше файлов, каждый из которых не должен превышать ограничение размера несжатой группы строк Amazon S3 Select <= 256 МБ <a href="https://docs.aws.amazon.com/AmazonS3/latest/dev/selecting-content-from-objects.html#selecting-content-from-objects-requirements-and-limits" rel="nofollow noreferrer"> source
  2. Все строки с определенным значением в данном столбце находятся в одном файле.

Если кто-то знает, как этого добиться, это будет фантастически c.

(Если это имеет значение, я использую pyspark, но при необходимости могу использовать scala)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...