У меня есть поток NiFi (который работает), который разбивает огромную электронную таблицу на отдельные csv
по названию компании.
Например,
GetFile -> SplitText -> PartitionRecord -> MergeContent ->
UpdateAttribute -> PutFile
Это приводит, например,
Проблема связана с csv
похоже на то, где одна и та же компания вводится несколько иначе:
Я знаю, что мне нужно вставить сюда процессор ExecuteScript
,Мне нужно объединить все такие дубликаты в один файл без необходимости прочесывать несколько тысяч строк, чтобы выбрать каждую компанию, которая была введена несколькими способами.
Я думаю, что это легко сделать с помощью Groovy:
flowFile = session.get()
if(!flowFile) return
myAttr = flowFile.getAttribute('filename')
Не уверен, куда идти.