У меня есть один поток, который должен обрабатывать файлы размером от 10 МБ до 12 ГБ.Записи в формате JSON и CSV.Мне нужно объединить несколько записей, содержащих одинаковые идентификаторы пути в одну запись.Идеально делать это в одном процессоре.
Использование таких процессоров, как PartitionRecord
и MergeRecord
, кажется привлекательным, но интересно, не снизится ли производительность, если каждая запись будет назначена ее собственному Flowfile в результате запуска ее через PartitionRecord
когда их миллионы.Каково влияние хранения / производительности / накладных расходов на наличие миллионов потоковых файлов?В идеале я хотел бы придерживаться потоковых процессоров, ориентированных на записи, если смогу, но это похоже на предписанный подход в NiFi.Я также открыт для создания собственного PartitionMergeRecord
процессора.