Есть ли способ получить общее количество файлов из одного запуска процессора FetchHDFS?
Мой вариант использования ==> прочитать все файлы из каталога (hdfs), объединить их, а затем выполнить дальнейшую обработку. Но чтобы остановить процессор слияния (пока все файлы не будут в очереди), мне нужно количество файлов, чтобы установить «Минимальное количество записей».
Я могу использовать ожидание / уведомление, но тогда мне все еще нужно общее количество, поэтому установите флажки правильно.
В любом случае, не логично ли иметь это в качестве атрибута для FetchHDFS или любого процессора обработки списка файлов.
Обновление № 2 (Процессор слияния) Согласно конфигурации, процессор слияния должен запускать файл каждые 300 секунд. В моем случае общее количество входных файлов составляет 2000, но они идут медленно (около 200 секунд). Итак, приведенная ниже конфигурация должна быть достаточно хорошей, чтобы объединить все файлы. Но это не работает. Я все еще вижу процессор слияния, позволяющий файлам идти в гораздо меньшем интервале.
Обновление № 3 == общий размер всех файлов 1600 составляет 318 КБ, что намного меньше размера корзины 128 МБ