Мне нужно спроектировать конвейер с использованием Nifi, но у меня есть несколько вопросов, поскольку я думаю о двух подходах, и я не уверен, какие процессоры использовать, поэтому, возможно, вы мне поможете.
Сценарий заключается вследующее: мне нужно вставить некоторые файлы .csv в мою HDFS, в них нет даты, которую я хочу использовать для разбиения таблиц Hive, которые я буду использовать позже, поэтому я подумал о двух вариантах:
- В какой-то момент во время обработки .csv создайте некоторый фрагмент кода, запускаемый из Nifi, чтобы изменить файл .csv, добавив столбец с датой.
- Создайте временную (внутреннюю?) Таблицу в кусте,измените таблицу, добавив столбец, и, наконец, добавьте ее в таблицу, в которой я делю по дате.
Я не уверен, какой вариант лучше (с точки зрения памяти, простота, управление ресурсами) или, может быть, даже если его дажевозможно, или даже если есть лучший способ сделать это.Также я не уверен, какие процессоры Nifi использовать.
Так что любая помощь приветствуется, ребята, спасибо.