Как спарк получить количество заданий на чтение паркетных файлов? - PullRequest
0 голосов
/ 01 мая 2020

У меня есть 271 маленький файл с паркетом (9 КБ / файл) в одном каталоге на корзине s3. Итак, я пытаюсь понять, как спарк получает количество задач при чтении этих файлов?

Кластер aws EMR 5.29 и мой sparkConf имеет --num-executors 2 и --executor-cores 2

Когда я запускаю spark.read.parquet("s3://bucket/path").rdd.getNumPartitions, я получил 9 задач / раздел, мой вопрос почему? Как это работает?

1 Ответ

0 голосов
/ 04 мая 2020

Я мог бы найти ответ здесь: https://github.com/animeshtrivedi/notes/wiki/Parquet-partition-calculation

Это сводится к:

Min(defaultMinSplitSize (128MB, `spark.sql.files.maxPartitionBytes`,
    Max(openCostInByte(8MB, `spark.sql.files.openCostInBytes`,
        totalSize/defaultParallelism)
)
...