Question

Я столкнулся с этой проблемой. Мне не удалось устранить слишком большую ошибку кадра даже после увеличения раздела shuflle.

Всего записей: 150 миллионов

dassum · Answer 1 · 02 октября 2019

Несколько вещей, которые вы можете попробовать

Просмотрите файлы журнала на неисправных узлах. Вы хотите посмотреть текст "Убить контейнер". Если вы видите текст, «работающий за пределами физической памяти», увеличение memoryOverhead должно решить проблему
org.apache.spark.shuffle.FetchFailedException может произойти из-за тайм-аута при получении разделов перемешивания. попробуйте следующие конфигурации

2.1. spark.reducer.maxReqsInFlight = 1;- Используйте только один файл за раз, чтобы использовать полную пропускную способность сети.

2.2 spark.shuffle.io.retryWait = 60 с;- Увеличьте время ожидания при получении случайных разделов перед повторной попыткой. Для больших файлов требуется более длительное время.

2.3 spark.shuffle.io.maxRetries = 10;

2.4 spark.network.timeout до большего значения, например 800. По умолчанию значение 120 секунд приведет кмногие из ваших исполнителей тайм-аут при большой нагрузке

Spark 1.6 сталкивается с слишком большой ошибкой кадра даже после увеличения разделов shuflle

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark 1.6 сталкивается с слишком большой ошибкой кадра даже после увеличения разделов shuflle

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов