Question

нужно быстрое предложение.

У меня есть сжатый файл в формате S3 (размер 3 ГБ), и я пытаюсь прочитать этот файл, используя apache spark, а затем выполняю операции агрегирования.

поэтому, когда я запускаю задание spark с указанными ниже конфигурациями,

--num-executors 3 --executor-memory 10G --executor-cores 4 --driver-memory 5G

задание spark запускается с 3 исполнителями, но запускается только одна задача, а два других - идеальны.Я пытался сделать reparation(3)

только для того, чтобы заставить искру запускать больше задач, но я все еще вижу только одну запущенную задачу.в моем текущем сценарии сторона данных составляет 50 Гс, когда она не сжата, и, поскольку только одна задача пытается обработать данные, я вижу исключение нехватки памяти.

Я пытался добавить StorageLevel, но это не решило мою проблему.

Любые предложения приветствуются.

Заранее спасибо.

как распределить работу по агрегации данных между несколькими искровыми исполнителями

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

как распределить работу по агрегации данных между несколькими искровыми исполнителями

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов