Spark 1.6 сталкивается с слишком большой ошибкой кадра даже после увеличения разделов shuflle - PullRequest
0 голосов
/ 02 октября 2019

Я столкнулся с этой проблемой. Мне не удалось устранить слишком большую ошибку кадра даже после увеличения раздела shuflle.

Всего записей: 150 миллионов

enter image description here

enter image description here

1 Ответ

0 голосов
/ 02 октября 2019

Несколько вещей, которые вы можете попробовать

  1. Просмотрите файлы журнала на неисправных узлах. Вы хотите посмотреть текст "Убить контейнер". Если вы видите текст, «работающий за пределами физической памяти», увеличение memoryOverhead должно решить проблему

  2. org.apache.spark.shuffle.FetchFailedException может произойти из-за тайм-аута при получении разделов перемешивания. попробуйте следующие конфигурации

2.1. spark.reducer.maxReqsInFlight = 1;- Используйте только один файл за раз, чтобы использовать полную пропускную способность сети.

2.2 spark.shuffle.io.retryWait = 60 с;- Увеличьте время ожидания при получении случайных разделов перед повторной попыткой. Для больших файлов требуется более длительное время.

2.3 spark.shuffle.io.maxRetries = 10;

2.4 spark.network.timeout до большего значения, например 800. По умолчанию значение 120 секунд приведет кмногие из ваших исполнителей тайм-аут при большой нагрузке

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...