Question

Следующее изображение предназначено для объединения spark sql.

Одна из задач случайной записи выполняется намного медленнее, чем другие.

И я уверен, что размер ввода каждой задачи очень близок.

Каждый раз, когда индекс задачи 205 медленнее других.

И когда я повторяю sql, индекс задачи 205 тоже очень медленный.

Интересно, чтоможет сделать одну задачу случайной записи так медленно с одинаковым размером ввода.

Ajay Ahuja · Answer 1 · 25 июня 2019

Попробуйте использовать перераспределение (количество разделов) для увеличения параллелизма.Это поможет распределить нагрузку между несколькими разделами.

Кроме того, если ваши данные не слишком велики, рассмотрите возможность уменьшения значения по умолчанию spark.sql.shuffle.partitions с 200 до 20 или может быть 10.

Надеюсь, это поможет!

Одна искра задача перемешать запись очень медленно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Одна искра задача перемешать запись очень медленно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов