Почему 7 разделов определяются Spark? - PullRequest
3 голосов
/ 29 октября 2019

У меня есть каталог партера, содержащий 5 файлов, как показано ниже:

enter image description here

Я использую версию Spark 2.2 и читаю этот каталог, используя следующий код:

enter image description here

Мне не ясно, почему 7 разделов (alternateDF.rdd (). GetNumPartitions ()) определяются Spark, когда у нас есть 5 файлов (каждый меньше размера блока) в каталоге паркета? 5 задач имеют входные записи, но последние 2 задачи имеют 0 входных записей, но ненулевые входные данные. Не могли бы вы объяснить поведение каждой задачи?

enter image description here

1 Ответ

1 голос
/ 29 октября 2019

@ Aman,

Вы можете перейти на старый вопрос ссылка

Проще говоря, это 3 параметра, от которых зависит (от ссылки выше) вычисление числаразделы

  • spark.default.parallelism (примерно соответствует # ядрам, доступным для приложения)
  • spark.sql.files.maxPartitionBytes (по умолчанию 128 МБ)
  • spark.sql.files.openCostInBytes (по умолчанию 4 МБ)

Исходный код Spark для см.

...