Использование Nifi для добавления строк в CSV - PullRequest
1 голос
/ 03 июня 2019

У нас есть CSV-файлы, которые ежедневно приходят с FTP-сайта. Нам нужно добавить новые строки из csv текущего дня, добавленные в файл, который в данный момент существует в каталоге HDFS. Процесс, который у нас сейчас есть:

  1. Get SFTP процессор забирает файлы с сайта
  2. Update Attribute создает папку HDFS на основе имени файла
  3. Атрибут обновления также создает подпапку на основе года
  4. Файл затем выгружается в подпапку HDFS

Всего имеется около 8 отдельных каталогов, т. Е. Sales_report, инвентаризация, персонал и т. Д. Для каждой из этих папок мы хотим, чтобы внутри был добавлен файл csv, а не новый, отдельный файл на каждый день.

Каков наилучший способ сделать это? Я знаю, что мне понадобится служба чтения и записи csv, но я не уверен, какие процессоры использовать и какие выражения nifi мне понадобятся (если они есть). Будем благодарны за любые подробные ответы.

Кроме того, технически полученный файл не обязательно должен быть в формате csv, если он находится в формате, который Hive может распознать.

1 Ответ

4 голосов
/ 03 июня 2019

Процессор PutHDFS имеет свойство для разрешения конфликтов с возможностью добавления.

"Добавляет к существующему файлу, если таковой имеется, в противном случае создает новый файл."

...