Question

У меня есть 271 маленький файл с паркетом (9 КБ / файл) в одном каталоге на корзине s3. Итак, я пытаюсь понять, как спарк получает количество задач при чтении этих файлов?

Кластер aws EMR 5.29 и мой sparkConf имеет --num-executors 2 и --executor-cores 2

Когда я запускаю spark.read.parquet("s3://bucket/path").rdd.getNumPartitions, я получил 9 задач / раздел, мой вопрос почему? Как это работает?

Bruno Canal · Answer 1 · 04 мая 2020

Я мог бы найти ответ здесь: https://github.com/animeshtrivedi/notes/wiki/Parquet-partition-calculation

Это сводится к:

Min(defaultMinSplitSize (128MB, `spark.sql.files.maxPartitionBytes`,
    Max(openCostInByte(8MB, `spark.sql.files.openCostInBytes`,
        totalSize/defaultParallelism)
)

Как спарк получить количество заданий на чтение паркетных файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как спарк получить количество заданий на чтение паркетных файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы