Идеальная конфигурация Spark - PullRequest
0 голосов
/ 31 марта 2020

я использую Apache spark на HDFS с MapR в нашем проекте. Мы сталкиваемся с проблемой запуска спекулятивных заданий, так как она выходит из строя после небольшого увеличения данных. Мы читаем данные из CSV-файла, выполняем некоторую передачу, агрегацию и затем сохраняем их в HBase.

Текущий размер данных = 3 ТБ

Доступные ресурсы: Всего узлов: 14 Доступно памяти: 1 ТБ Всего VCores: Всего 450 дисков: 150 ТБ

Spark Conf: executorCores: 2 executorInstance: 50 executorMemory: 40 ГБ minPartitions: 600

, пожалуйста, предложите, если приведенная выше конфигурация выглядит нормально, потому что ошибка становится похожей это выходит из памяти.

1 Ответ

0 голосов
/ 03 апреля 2020

Можете ли вы рассказать немного о том, как работа не работает? Без дополнительной информации будет очень сложно сказать. Было бы полезно, если бы вы сказали, какую версию Spark и используете ли вы под Yarn или с автономным кластером Spark (или даже на Kubernetes)

Даже без какой-либо информации, однако, вероятно, что существует проблема конфигурации здесь. Может случиться так, что Spark говорят противоречивые вещи о том, сколько памяти доступно, поэтому, когда он пытается использовать память, он думает, что ему разрешено использовать, система говорит «нет».

...