Как отладить и настроить приложение Spark 2.0+ из веб-интерфейса? - PullRequest
0 голосов
/ 22 февраля 2019

Мое искровое приложение уже давно запущено.
Сцена застряла в 199/200, как показано на рисунке.

enter image description here

Когда я нажал на сцену и посмотрел ее задачи.Я обнаружил, что две задачи занимали очень много времени, и их размер чтения в случайном порядке и разлив в случайном порядке (память) намного больше, чем у других исполнителей.

enter image description here

Это имеетдва кадра данных:

large_df.cache, 
small_df.cache

преобразования:

val df = large_df.join(broadcast(small_df))
df.filter(...)

действие:

final_df.cache
final_df.count
final_df.save(...)

интересно, когда я добавляю "small_df.count" after small.cache, сцена не будетзастрять и размер чтения в случайном порядке даже среди всех исполнителей.

Вопросы:

  1. Кто-нибудь понимает этот трюк?
  2. Использует ли Shuffle spill (memory) память выполнения исполнителя?
  3. Какая связь междуперемешать чтение, перемешать запись и перемешать разлив?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...