У меня есть 271 маленький файл с паркетом (9 КБ / файл) в одном каталоге на корзине s3. Итак, я пытаюсь понять, как спарк получает количество задач при чтении этих файлов?
Кластер aws EMR 5.29 и мой sparkConf имеет --num-executors 2
и --executor-cores 2
Когда я запускаю spark.read.parquet("s3://bucket/path").rdd.getNumPartitions
, я получил 9 задач / раздел, мой вопрос почему? Как это работает?