заменить файлы с перемещением при использовании pig на HDFS - PullRequest
0 голосов
/ 20 ноября 2018

У меня есть процесс, который перемещает файлы в папку обработки с помощью сценария pig в качестве задачи MapReduce2 в рамках рабочего процесса hadoop.

Я недавно видел сбой копий, приводящий к частичному перемещению файлов.

При повторном запуске задания при следующей ошибке сценарий PIG попытается переместить файл снова, но, поскольку в целевой папке есть часть файла, произойдет сбой.В pig нет никакой опции для перемещения с заменой.

Я мог бы сделать копию и удалить, но есть риск, что во время копирования другой файл может быть загружен в HDFS, который не был включен воперация оригинального копирования, а затем, когда я запускаю команду «удалить все», я также удаляю файл, который еще не был перемещен в каталог обработки.

Я знаю, что при перемещении нет принудительной замены, но есть ли способ создатьсписок всех файлов, которые я собираюсь переместить из исходного местоположения, а затем проверить их в целевом местоположении, а затем, если они существуют в целевом местоположении, удалить их перед перемещением?

Большое спасибо за вашепомощь заранее.

...