Question

Быстрый вопрос, просто пытаясь понять, что именно означает spark.sql.shuffle.partitions?Говорим ли мы о количестве секций, являющихся результатом широкого преобразования, или о том, что происходит в середине, как при некотором промежуточном разбиении перед результирующим разделением широкого преобразования?

Поскольку в моем понимании, согласно широкому преобразованию, мы имеем

Parents RDDs -> shuffle files -> Child RDDs

На что здесь ссылается параметр spark.sql.shuffle.partitions? перемешивает файлы или RDD для детей или что-то еще, что я проигнорировал?

user10407081 · Answer 1 · 24 сентября 2018

Это уже объяснено в [официальных документах] 9 https://spark.apache.org/docs/latest/sql-programming-guide.html#other-configuration-options):

spark.sql.shuffle.partitions 200 Конфигурирует количество разделов, используемых при перетасовке данных для объединений или объединений.

Другими словами, это количество дочерних разделов Dataset.

к чему конкретно относится spark.sql.shuffle.partitions?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

к чему конкретно относится spark.sql.shuffle.partitions?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов