к чему конкретно относится spark.sql.shuffle.partitions? - PullRequest
0 голосов
/ 24 сентября 2018

Быстрый вопрос, просто пытаясь понять, что именно означает spark.sql.shuffle.partitions?Говорим ли мы о количестве секций, являющихся результатом широкого преобразования, или о том, что происходит в середине, как при некотором промежуточном разбиении перед результирующим разделением широкого преобразования?

Поскольку в моем понимании, согласно широкому преобразованию, мы имеем

Parents RDDs -> shuffle files -> Child RDDs

На что здесь ссылается параметр spark.sql.shuffle.partitions? перемешивает файлы или RDD для детей или что-то еще, что я проигнорировал?

1 Ответ

0 голосов
/ 24 сентября 2018

Это уже объяснено в [официальных документах] 9 https://spark.apache.org/docs/latest/sql-programming-guide.html#other-configuration-options):

spark.sql.shuffle.partitions 200 Конфигурирует количество разделов, используемых при перетасовке данных для объединений или объединений.

Другими словами, это количество дочерних разделов Dataset.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...