Вот несколько больших файлов, приходящих через день, не очень часто, 2-3 раза в день, и они конвертируются в формат JSON.
Содержимое файла выглядит следующим образом:
[
{
"spa_ref_data": {
"approval_action": "New",
"spa_ref_no": "6500781413",
"begin_date": null,
"end_date": "20191009",
"doc_file_name": "LEN_SPA_6500781413.json",
"LEN_V": "v1",
"version_no": null,
"spa_ref_id": null,
"spa_ref_notes": "MC00020544",
"vend_code": "LEN"
},
"cust_data": [
{
"cust_name": null,
"cust_no": null,
"cust_type": "E",
"state": null,
"country": null
},
{
"cust_name": null,
"cust_no": null,
"cust_type": "C",
"state": null,
"country": null
}
],
"product_data": [
{
"mfg_partno": "40AH0135US",
"std_price": null,
"rebate_amt": "180",
"max_spa_qty": null,
"rebate_type": null,
"min_spa_qty": null,
"min_cust_qty": null,
"max_cust_qty": null,
"begin_date": "20180608",
"end_date": null
},
{
"mfg_partno": "40AJ0135US",
"std_price": null,
"rebate_amt": "210",
"max_spa_qty": null,
"rebate_type": null,
"min_spa_qty": null,
"min_cust_qty": null,
"max_cust_qty": null,
"begin_date": "20180608",
"end_date": null
}
]
},
{
"spa_ref_data": {
"approval_action": "New",
"spa_ref_no": "5309745006",
"begin_date": null,
"end_date": "20190426",
"doc_file_name": "LEN_SPA_5309745006.json",
"LEN_V": "v1",
"version_no": null,
"spa_ref_id": null,
"spa_ref_notes": "MC00020101",
"vend_code": "LEN"
},
"cust_data": [
{
"cust_name": null,
"cust_no": null,
"cust_type": "E",
"state": null,
"country": null
},
{
"cust_name": null,
"cust_no": null,
"cust_type": "C",
"state": null,
"country": null
}
],
"product_data": [
{
"mfg_partno": "10M8S0HU00",
"std_price": null,
"rebate_amt": "698",
"max_spa_qty": null,
"rebate_type": null,
"min_spa_qty": null,
"min_cust_qty": null,
"max_cust_qty": null,
"begin_date": "20180405",
"end_date": null
},
{
"mfg_partno": "20K5S0CM00",
"std_price": null,
"rebate_amt": "1083",
"max_spa_qty": null,
"rebate_type": null,
"min_spa_qty": null,
"min_cust_qty": null,
"max_cust_qty": null,
"begin_date": "20180405",
"end_date": null
}
]
}
]
Это фиктивный файл данных. Фактически это массив длиной 30000+.
Моя цель - сравнить грядущий с последним. И получите измененные данные.
Лидер говорит, что я должен использовать технику больших данных. И производительность должна быть хорошей.
Для этого мы используем Apache NIFI и инструменты больших данных hadoop.
Есть какой-нибудь совет?