В кластере hdfs я ежедневно получаю несколько файлов, которые могут быть трех типов:
1) product_info_timestamp
2) user_info_timestamp
3) user_activity_timestamp
Количество полученных файлов может быть любым, но они будут принадлежать только к одной из этих 3 категорий.
Я хочу объединить все файлы (после проверки, если они меньше 100 МБ), принадлежащие одной категории, в один файл.
например, 3 файла с именем product_info_ * должны быть объединены в один файл с именем product_info.
Как мне этого добиться?