У меня есть машина с Apache Spark. Машина 64GB RAM 16 Cores
.
Моя цель в каждой искровой работе
1. Download a gz file from a remote server
2. Extract gz to get csv file (1GB max)
3. Process csv file in spark and save some stats.
В настоящее время я отправляю одну работу для каждого полученного файла, выполнив следующие действия:
./spark-submit --class ClassName --executor-cores 14 --num-executors 3 --driver-memory 4g --executor-memory 4g jar_path
И дождитесь завершения этого задания, а затем начните новое задание для нового файла.
Теперь я хочу использовать 64 ГБ ОЗУ, выполняя несколько заданий параллельно.
Я могу назначить 4 г ОЗУ для каждого задания и хотеть ставить его в очередь, когда уже запущено достаточно заданий.
Как мне этого добиться?