У меня огромный JSON-файл, который я читаю в своей работе Spark
Это формат примерно такой:
"transactionContainer": {
"transaction": [
{
"arrayOfItems": [
{
"objectType": "whatever"
},
{
"objectType": "whatever"
},
{
"objectType": "whatever"
}
],
"header": {
"objectType": "whatever"
}
}
]
}
Размер файла увеличивается с увеличением количества элементов в массивеOfItems
При использовании этого файла через Spark DataFrame возможно ли использовать его, используя несколько разделов в его нынешнем формате?
Если бы он содержал только массив, это сработало бы?
Я знаю, что мы можем преобразовать DataFrame, чтобы разделить его на arrayOfItems после его загрузки, но мне интересно, возможно ли это сделать для начальной загрузки?