В чем разница между памятью и сетью в столбце 'input size / Record' в spark ui? - PullRequest
0 голосов
/ 25 апреля 2018

У меня есть некоторые проблемы при запуске потокового воспроизведения в моем кластере.

Во-первых, я знаю, что спекулятивные задачи вызваны медленным выполнением некоторых исполнителей, но некоторые задачи не спекулятивныетакже работает медленно с колонкой 'input size / Record', показывающей сеть, в то время как другой показывает память.Вот снимок экрана:

enter image description here

, поэтому кто-то может сказать мне, в чем разница между памятью и сетью в столбце «Размер ввода / Запись»?Спасибо!

1 Ответ

0 голосов
/ 25 апреля 2018

Размер данных здесь не проблема. На основе скриншота все разделы более или менее одинакового размера.

В действительности проблема заключается в локальности данных. К большинству данных можно получить доступ локально, однако проблемные из-за них вынуждены использовать RACK_LOCAL, и, поскольку это занимает намного больше времени, чем ожидаемое спекулятивное выполнение, запускается и пытается с ANY.

Здесь недостаточно информации для полной диагностики проблемы, но вы можете попробовать увеличить свойство spark.locality.wait (по умолчанию 3 секунды).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...