Установка для spark.shuffle.service.enabled значения true решила эту проблему для меня.
В конфигурации AWS EMR по умолчанию для spark.dynamicAllocation.enabled установлено значение true, но spark.shuffle.service.enabled имеет значение false .
spark.dynamicAllocation.enabled позволяет Spark динамически назначать исполнителей для различных задач. spark.shuffle.service.enabled при значении false отключает службу внешнего перемешивания, и данные сохраняются только на исполнителях.Когда исполнители переназначаются, данные теряются, и возникает исключение «java.io.IOException: все датоданы плохие».выбрасывается для запроса данных.