Исключения при выполнении задания Spark в кластере EMR "java.io.IOException: все датоданы плохие" - PullRequest
0 голосов
/ 30 апреля 2019

У нас есть настройка AWS EMR для обработки заданий, написанных на Scala.Мы можем запускать задания для небольшого набора данных, но при выполнении того же задания для большого набора данных я получаю исключение «java.io.IOException: все датододы плохие».

1 Ответ

2 голосов
/ 30 апреля 2019

Установка для spark.shuffle.service.enabled значения true решила эту проблему для меня.

В конфигурации AWS EMR по умолчанию для spark.dynamicAllocation.enabled установлено значение true, но spark.shuffle.service.enabled имеет значение false .

spark.dynamicAllocation.enabled позволяет Spark динамически назначать исполнителей для различных задач. spark.shuffle.service.enabled при значении false отключает службу внешнего перемешивания, и данные сохраняются только на исполнителях.Когда исполнители переназначаются, данные теряются, и возникает исключение «java.io.IOException: все датоданы плохие».выбрасывается для запроса данных.

...