Перемещение файлов в HDFS на основе метки времени файла - PullRequest
0 голосов
/ 03 декабря 2018

У меня есть следующие файлы в HDFS -

abc_20181203-010000

cde_20181203-020000

fgh_20181203-030000

Каждый час приземляются файлы данныхв каталоге HDFS.Для обработки файла второго часа вводится файл 01 и 02 часа.Для обработки 03-часовых файлов вводятся файлы 02 и 03 и т. Д.Мне нужно переместить / скопировать только 2 часа файлы один раз в другой каталог HDFS для дальнейшей обработки.Мне нужен скрипт, который будет перемещать / копировать файлы 01 и 02 в другой каталог.Файл 03 должен оставаться в исходном каталоге.Поэтому, когда приходят файлы следующего часа, т. Е. Если приходит 04 .. затем 03 и 04 необходимо переместить.

Я начал со сценария (локально), но не знаю, какпродолжить.Цените любые указания.

input="/input"

for i in $input/*;do

fbname=$(basename "$i" | cut -d. -f1)
directory=$(basename "$fbname" | cut -d "-" -f2)
dateHourFile=$(basename "$fbname" | cut -d "_" -f2)

done
function Sort() {
    SortedList=$(echo $dateHourFile | sort -nu)
}
Sort
echo "$SortedList"
...