нужно быстрое предложение.
У меня есть сжатый файл в формате S3 (размер 3 ГБ), и я пытаюсь прочитать этот файл, используя apache spark, а затем выполняю операции агрегирования.
поэтому, когда я запускаю задание spark с указанными ниже конфигурациями,
--num-executors 3 --executor-memory 10G --executor-cores 4 --driver-memory 5G
задание spark запускается с 3 исполнителями, но запускается только одна задача, а два других - идеальны.Я пытался сделать reparation(3)
только для того, чтобы заставить искру запускать больше задач, но я все еще вижу только одну запущенную задачу.в моем текущем сценарии сторона данных составляет 50 Гс, когда она не сжата, и, поскольку только одна задача пытается обработать данные, я вижу исключение нехватки памяти.
Я пытался добавить StorageLevel, но это не решило мою проблему.
Любые предложения приветствуются.
Заранее спасибо.