Несколько вещей, которые вы можете попробовать
Просмотрите файлы журнала на неисправных узлах. Вы хотите посмотреть текст "Убить контейнер". Если вы видите текст, «работающий за пределами физической памяти», увеличение memoryOverhead должно решить проблему
org.apache.spark.shuffle.FetchFailedException может произойти из-за тайм-аута при получении разделов перемешивания. попробуйте следующие конфигурации
2.1. spark.reducer.maxReqsInFlight = 1;- Используйте только один файл за раз, чтобы использовать полную пропускную способность сети.
2.2 spark.shuffle.io.retryWait = 60 с;- Увеличьте время ожидания при получении случайных разделов перед повторной попыткой. Для больших файлов требуется более длительное время.
2.3 spark.shuffle.io.maxRetries = 10;
2.4 spark.network.timeout до большего значения, например 800. По умолчанию значение 120 секунд приведет кмногие из ваших исполнителей тайм-аут при большой нагрузке