Нет необходимости объединять файлы, чтобы использовать их в качестве ввода Hadoop:
- рассмотрим
file_name*
- шаблон;
file_name_1,file_name_2
- список входов.
И Hadoop справится с этим.
В противном случае вы можете использовать потоковую передачу Hadoop для их объединения (с распаковкой).
Вы можете создать список файлов по шаблону, например:
FILES_LIST="'ls -m template*.bz2'"
INPUT_FILE="'echo $FILES_LIST | tr -d ' ' '"
внутренние '
кавычки должны быть разными. Вы можете передать $INPUT_FILE
в качестве переменной в ваш скрипт через CLI.
Также рассмотрим класс CombineFileInputFormat как InputFormat.