Разбивать большие JSON файлы на маленькие части - PullRequest
0 голосов
/ 05 мая 2020

У нас есть существующий код Python для преобразования файлов JSON в файлы формата parquet, здесь мы используем Python pandas DataFrame (функция read_ json, используемая для чтения файла). Основная проблема, с которой мы сейчас сталкиваемся, - это память. Иногда задание зависает / не выполняется из-за большого размера входящего файла Json ( 6 ГБ ). Есть ли способ разделить большой JSON файл на маленькие файлы, тогда мы можем передать эти файлы в наш существующий код для преобразования.

Ниже приведен образец Json file: case. json

    {
        "case": [
            {
                "Id": "uyyu34342",
                "Account": "www",
                "CaseAccess": "de",
                "ContactAccess": "s22",
                "Currency": "EUR",
                "ModelId": "542",
                "TypeId": "6"
            },
            {
                "Id": "uyyu34342",
                "Account": "www",
                "CaseAccess": "de",
                "ContactAccess": "s22",
                "Currency": "EUR",
                "ModelId": "542",
                "TypeId": "6"
            }
        ]
    }

Ожидаемый результат:

case_1. json

{
            "case": [
                {
                    "Id": "uyyu34342",
                    "Account": "www",
                    "CaseAccess": "de",
                    "ContactAccess": "s22",
                    "Currency": "EUR",
                    "ModelId": "542",
                    "TypeId": "6"
                }
            ]
        }

case_2. json

{
            "case": [
                {
                    "Id": "uyyu34342",
                    "Account": "www",
                    "CaseAccess": "de",
                    "ContactAccess": "s22",
                    "Currency": "EUR",
                    "ModelId": "542",
                    "TypeId": "6"
                }
            ]
        }
...