Разбиение больших наборов записей в Apache NiFi - PullRequest
0 голосов
/ 01 февраля 2019

У меня есть один поток, который должен обрабатывать файлы размером от 10 МБ до 12 ГБ.Записи в формате JSON и CSV.Мне нужно объединить несколько записей, содержащих одинаковые идентификаторы пути в одну запись.Идеально делать это в одном процессоре.

Использование таких процессоров, как PartitionRecord и MergeRecord, кажется привлекательным, но интересно, не снизится ли производительность, если каждая запись будет назначена ее собственному Flowfile в результате запуска ее через PartitionRecordкогда их миллионы.Каково влияние хранения / производительности / накладных расходов на наличие миллионов потоковых файлов?В идеале я хотел бы придерживаться потоковых процессоров, ориентированных на записи, если смогу, но это похоже на предписанный подход в NiFi.Я также открыт для создания собственного PartitionMergeRecord процессора.

...