Spark Data Frame: использование одного файла JSON с использованием нескольких разделов - PullRequest
0 голосов
/ 10 апреля 2019

У меня огромный JSON-файл, который я читаю в своей работе Spark

Это формат примерно такой:

"transactionContainer": {
  "transaction": [
  {
    "arrayOfItems": [
      {
        "objectType": "whatever"
      },
      {
        "objectType": "whatever"
      },
      {
        "objectType": "whatever"
      }
    ],
    "header": {
      "objectType": "whatever"
    }
  }
]
}

Размер файла увеличивается с увеличением количества элементов в массивеOfItems

При использовании этого файла через Spark DataFrame возможно ли использовать его, используя несколько разделов в его нынешнем формате?

Если бы он содержал только массив, это сработало бы?

Я знаю, что мы можем преобразовать DataFrame, чтобы разделить его на arrayOfItems после его загрузки, но мне интересно, возможно ли это сделать для начальной загрузки?

...