Довольно новый для использования нифи.Нужна помощь с дизайном.Я пытаюсь создать простой поток с фиктивными CSV-файлами (на данный момент) в директории HDFS и добавить некоторые текстовые данные к каждой записи в каждом потоковом файле.
Входящие файлы:
dummy1.csv
dummy2.csv
dummy3.csv
содержимое:
"Eldon Base for stackable storage shelf, platinum",Muhammed MacIntyre,3,-213.25,38.94,35,Nunavut,Storage & Organization,0.8
"1.7 Cubic Foot Compact ""Cube"" Office Refrigerators",BarryFrench,293,457.81,208.16,68.02,Nunavut,Appliances,0.58
"Cardinal Slant-D Ring Binder, Heavy Gauge Vinyl",Barry French,293,46.71,8.69,2.99,Nunavut,Binders and Binder Accessories,0.39
...
Желаемый вывод:
d17a3259-0718-4c7b-bee8-924266aebcc7,Mon Jun 04 16:36:56 EDT 2018,Fellowes Recycled Storage Drawers,Allen Rosenblatt,11137,395.12,111.03,8.64,Northwest Territories,Storage & Organization,0.78
25f17667-9216-4f1d-b69c-23403cd13464,Mon Jun 04 16:36:56 EDT 2018,Satellite Sectional Post Binders,Barry Weirich,11202,79.59,43.41,2.99,Northwest Territories,Binders and Binder Accessories,0.39
ce0b569f-5d93-4a54-b55e-09c18705f973,Mon Jun 04 16:36:56 EDT 2018,Deflect-o DuraMat Antistatic Studded Beveled Mat for Medium Pile Carpeting,Doug Bickford,11456,399.37,105.34,24.49,Northwest Territories,Office Furnishings,0.61
поток splitText- ReplaceText- MergeContent-
(это может быть плохой способ достичь того, что я пытаюсь получить, но я где-то виделэтот uuid лучше всего подходит для генерации уникального идентификатора сеанса. Поэтому подумайте о том, чтобы извлечь каждую строку из входящих данных в потоковый файл и сгенерировать uuid)
Но как-то, как вы можете видеть, порядок данных портится.Первые 3 строки не совпадают в выводе.Однако используемые мной тестовые данные (50000 записей), похоже, содержат данные в какой-то другой строке.Множественные тесты обычно показывают изменения порядка данных после 2001-й строки.
И да, я выполнил поиск похожих проблем здесь и попытался использовать метод дефрагментации при слиянии, но это не сработало.Я был бы признателен, если кто-то может объяснить, что здесь происходит и как я могу получить данные таким же образом с уникальным идентификатором session_id, отметкой времени для каждой записи.Есть ли какой-то параметр, который мне нужно изменить или изменить, чтобы получить правильный вывод?Я открыт для предложений, если есть лучший способ.