У меня есть поток NiFi, который читает текстовые данные из файлов CSV, выполняет некоторую обработку и затем выводит данные в Kafka в формате JSON. Этап обработки в основном предназначен для дедупликации данных.
Вот схема текущего потока:
Read CSV files ==> Processing (deduplication) ==> Convert to JSON ==> Push to Kafka
Я думаю о преобразовании данных в Avro после их чтения изатем выполните обработку.
Предлагаемый поток будет:
Read CSV files ==> Convert to Avro ==> Processing (deduplication) ==> Convert to JSON ==> Push to Kafka
Может ли это принести какие-либо выгоды или это просто бесполезный промежуточный этап?