Одна искра задача перемешать запись очень медленно - PullRequest
0 голосов
/ 25 июня 2019

Следующее изображение предназначено для объединения spark sql.

Одна из задач случайной записи выполняется намного медленнее, чем другие.

И я уверен, что размер ввода каждой задачи очень близок.

Каждый раз, когда индекс задачи 205 медленнее других.

И когда я повторяю sql, индекс задачи 205 тоже очень медленный.

Интересно, чтоможет сделать одну задачу случайной записи так медленно с одинаковым размером ввода.

enter image description here

1 Ответ

0 голосов
/ 25 июня 2019

Попробуйте использовать перераспределение (количество разделов) для увеличения параллелизма.Это поможет распределить нагрузку между несколькими разделами.

Кроме того, если ваши данные не слишком велики, рассмотрите возможность уменьшения значения по умолчанию spark.sql.shuffle.partitions с 200 до 20 или может быть 10.

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...