я использую Apache spark на HDFS с MapR в нашем проекте. Мы сталкиваемся с проблемой запуска спекулятивных заданий, так как она выходит из строя после небольшого увеличения данных. Мы читаем данные из CSV-файла, выполняем некоторую передачу, агрегацию и затем сохраняем их в HBase.
Текущий размер данных = 3 ТБ
Доступные ресурсы: Всего узлов: 14 Доступно памяти: 1 ТБ Всего VCores: Всего 450 дисков: 150 ТБ
Spark Conf: executorCores: 2 executorInstance: 50 executorMemory: 40 ГБ minPartitions: 600
, пожалуйста, предложите, если приведенная выше конфигурация выглядит нормально, потому что ошибка становится похожей это выходит из памяти.