Question

я использую Apache spark на HDFS с MapR в нашем проекте. Мы сталкиваемся с проблемой запуска спекулятивных заданий, так как она выходит из строя после небольшого увеличения данных. Мы читаем данные из CSV-файла, выполняем некоторую передачу, агрегацию и затем сохраняем их в HBase.

Текущий размер данных = 3 ТБ

Доступные ресурсы: Всего узлов: 14 Доступно памяти: 1 ТБ Всего VCores: Всего 450 дисков: 150 ТБ

Spark Conf: executorCores: 2 executorInstance: 50 executorMemory: 40 ГБ minPartitions: 600

, пожалуйста, предложите, если приведенная выше конфигурация выглядит нормально, потому что ошибка становится похожей это выходит из памяти.

Ted Dunning · Answer 1 · 03 апреля 2020

Можете ли вы рассказать немного о том, как работа не работает? Без дополнительной информации будет очень сложно сказать. Было бы полезно, если бы вы сказали, какую версию Spark и используете ли вы под Yarn или с автономным кластером Spark (или даже на Kubernetes)

Даже без какой-либо информации, однако, вероятно, что существует проблема конфигурации здесь. Может случиться так, что Spark говорят противоречивые вещи о том, сколько памяти доступно, поэтому, когда он пытается использовать память, он думает, что ему разрешено использовать, система говорит «нет».

Идеальная конфигурация Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Идеальная конфигурация Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы