У нас есть существующий код Python для преобразования файлов JSON в файлы формата parquet, здесь мы используем Python pandas DataFrame (функция read_ json, используемая для чтения файла). Основная проблема, с которой мы сейчас сталкиваемся, - это память. Иногда задание зависает / не выполняется из-за большого размера входящего файла Json ( 6 ГБ ). Есть ли способ разделить большой JSON файл на маленькие файлы, тогда мы можем передать эти файлы в наш существующий код для преобразования.
Ниже приведен образец Json file: case. json
{
"case": [
{
"Id": "uyyu34342",
"Account": "www",
"CaseAccess": "de",
"ContactAccess": "s22",
"Currency": "EUR",
"ModelId": "542",
"TypeId": "6"
},
{
"Id": "uyyu34342",
"Account": "www",
"CaseAccess": "de",
"ContactAccess": "s22",
"Currency": "EUR",
"ModelId": "542",
"TypeId": "6"
}
]
}
Ожидаемый результат:
case_1. json
{
"case": [
{
"Id": "uyyu34342",
"Account": "www",
"CaseAccess": "de",
"ContactAccess": "s22",
"Currency": "EUR",
"ModelId": "542",
"TypeId": "6"
}
]
}
case_2. json
{
"case": [
{
"Id": "uyyu34342",
"Account": "www",
"CaseAccess": "de",
"ContactAccess": "s22",
"Currency": "EUR",
"ModelId": "542",
"TypeId": "6"
}
]
}