Я использую NiFi для восстановления и помещаю в Kafka много данных. Я на самом деле на стадии тестирования, и я использую большой файл Json.
Мой файл Json содержит 500K записей.
На самом деле, у меня есть процессор getFile
для получения файла иa SplitJson
.
Выражение JsonPath: $..posts.*
Эта конфигурация работает с небольшим файлом, который записывает 50K записей, но для больших файлов она падает.
Мой файл JsonПохоже, что с 500K регистраций в "posts":[]
{
"meta":{
"requestid":"request1000",
"http_code":200,
"network":"twitter",
"query_type":"realtime",
"limit":10,
"page":0
},
"posts":[
{
"network":"twitter",
"posted":"posted1",
"postid":"id1",
"text":"text1",
"lang":"lang1",
"type":"type1",
"sentiment":"sentiment1",
"url":"url1"
},
{
"network":"twitter",
"posted":"posted2",
"postid":"id2",
"text":"text2",
"lang":"lang2",
"type":"type2",
"sentiment":"sentiment2",
"url":"url2"
}
]
}
Я прочитал некоторые документы по этой проблеме, но, темы для текстового файла, и ораторы предлагают связать много SplitText
для постепенного разделения файла. С такой жесткой структурой, как мой Json, я не понимаю, как я могу это сделать.
Я ищу решение, которое бы она хорошо выполнила при записи 500K.