Размер раздела или RDD - PullRequest
       56

Размер раздела или RDD

0 голосов
/ 06 августа 2020

Как мы можем рассчитать размер раздела в СДР? Разве не рекомендуется рассчитывать размер раздела? Я хочу динамически установить количество перемешиваемых разделов перед вызовом какого-либо действия, поэтому мне необходимо рассчитать размер раздела и в зависимости от количества исполнителей, которые хотят установить количество перемешиваемых разделов.

Ответы [ 2 ]

1 голос
/ 07 августа 2020

«Я хочу динамически установить количество перемешиваемых разделов перед вызовом какого-либо действия»

, к сожалению, это сложная задача в Spark без глубокого погружения в код низкого уровня. Фактически, это то, что предлагает адаптивное исполнение в Spark 3.0. Он будет выполнять разделение набора данных, а затем динамическое объединение небольших разделов для достижения определенного порога.

https://databricks.com/blog/2020/05/29/adaptive-query-execution-speeding-up-spark-sql-at-runtime.html

0 голосов
/ 06 августа 2020

вы можете получить размер раздела RDD с помощью следующей команды: someRDD.partitions.size вы можете использовать разные методы разделения, например:

  1. на основе столбцов
  2. на основе (размер набора) / (размер блока)
  3. на основе доступных ядер
...