как распределить работу по агрегации данных между несколькими искровыми исполнителями - PullRequest
0 голосов
/ 12 июня 2018

нужно быстрое предложение.

У меня есть сжатый файл в формате S3 (размер 3 ГБ), и я пытаюсь прочитать этот файл, используя apache spark, а затем выполняю операции агрегирования.

поэтому, когда я запускаю задание spark с указанными ниже конфигурациями,

--num-executors 3 --executor-memory 10G --executor-cores 4 --driver-memory 5G

задание spark запускается с 3 исполнителями, но запускается только одна задача, а два других - идеальны.Я пытался сделать reparation(3)

только для того, чтобы заставить искру запускать больше задач, но я все еще вижу только одну запущенную задачу.в моем текущем сценарии сторона данных составляет 50 Гс, когда она не сжата, и, поскольку только одна задача пытается обработать данные, я вижу исключение нехватки памяти.

Я пытался добавить StorageLevel, но это не решило мою проблему.

Любые предложения приветствуются.

Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...