Я пытаюсь запустить задание hadoop, которое создает, копирует, удаляет файлы на S3 и при необходимости читает эти файлы с S3.
Моя работа периодически терпит неудачу со следующим исключением, к которому я ищу постоянное исправление или обходной путь. Исключение составляет:
Причина: com.amazon.ws.emr.hadoop.fs.consistency.exception.FileDeletedInMetadataNotFoundException: файл '' помечен как удаленный в метаданных
Когда я запускаю команду emrfs diff
извне после сбоя задания, выходной файл имеет MANIFEST_ONLY
файлов красного цвета.
Затем я запускаю команду emrfs sync
, которая удаляет эти файлы, а затем моя работа выполняется без ошибок.
Я не хочу отлаживать после сбоя задания, так как это для меня неприемлемо. Также я не хочу, чтобы какое-либо ручное вмешательство обеспечивало бесперебойную работу моей работы.
Моя работа сама создает, копирует, удаляет файлы, а затем не может их прочитать, что кажется странным, и мне не удалось найти какое-либо решение в документации.
Буду признателен за все соответствующие предложения.