У нас есть CSV-файлы, которые ежедневно приходят с FTP-сайта. Нам нужно добавить новые строки из csv текущего дня, добавленные в файл, который в данный момент существует в каталоге HDFS. Процесс, который у нас сейчас есть:
- Get SFTP процессор забирает файлы с сайта
- Update Attribute создает папку HDFS на основе имени файла
- Атрибут обновления также создает подпапку на основе года
- Файл затем выгружается в подпапку HDFS
Всего имеется около 8 отдельных каталогов, т. Е. Sales_report, инвентаризация, персонал и т. Д. Для каждой из этих папок мы хотим, чтобы внутри был добавлен файл csv, а не новый, отдельный файл на каждый день.
Каков наилучший способ сделать это? Я знаю, что мне понадобится служба чтения и записи csv, но я не уверен, какие процессоры использовать и какие выражения nifi мне понадобятся (если они есть). Будем благодарны за любые подробные ответы.
Кроме того, технически полученный файл не обязательно должен быть в формате csv, если он находится в формате, который Hive может распознать.