Потребность в большой памяти исполнителя, если размер блока составляет 128 МБ - PullRequest
0 голосов
/ 09 января 2019

У меня вопрос по поводу искры. Я использую spark 2.2 и, насколько мне известно, каждый исполнитель раскручивает такты и выполняет задачу. Каждое задание соответствует разделу. Номер раздела по умолчанию основан на параллелизме по умолчанию и размере файла / Размер блока по умолчанию. Итак, учитывая размер файла 1 ГБ и кластер из 4 исполнителей, каждый из которых может раскрутить 2 задачи (2 ядра). В соответствии с расчетом объем памяти исполнителя должен составлять около 256 МБ (2 задачи, каждая из которых работает на блоке 128 МБ) + 384 МБ. Однако, если я запускаю код с таким размером в качестве памяти исполнителя, производительность будет низкой. Если я предоставлю исполнителю память 1,5 ГБ (учитывая некоторые вычисления на rdd), производительность все равно будет низкой. Только когда я увеличу память исполнителя до 3 ГБ, производительность будет хорошей.

Может кто-нибудь объяснить 1. Зачем нам столько памяти исполнителя, когда мы работаем только с 128 МБ данных одновременно. 2. Как рассчитать оптимальную память исполнителя, необходимую для работы

Спасибо за вашу помощь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...