Вот что мне приходит в голову:
1) Используйте «Источник каталогов» Flume. Этот источник позволяет загружать данные, помещая файлы для загрузки в каталог «спулинга» на диске.
Запишите свои файлы в этот каталог.
2) Используйте любой канал для Flume: «память» или «Файл». Оба имеют свои преимущества и недостатки.
3) Используйте HDFS Sink для записи в HDFS.
«Источник каталога спулинга» будет переименовывать файл после загрузки (или, при необходимости, удалять). Данные также выживают после сбоя или перезапуска.
Вот документация:
https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source