Я понимаю, что большинство форматов JSON SerDe предполагают, что .json
файлы будут храниться с одной записью на строку.
У меня есть S3-контейнер с многострочным отступом .json
файлы (не контролируют источник), которые я хотел бы запросить с помощью Amazon Athena (хотя я полагаю, что это относится и к Hive в целом).
- Существует ли там формат SerDeкоторый может анализировать многострочные файлы
.json
с отступом? - Если не формат SerDe, чтобы сделать это:
- Есть ли лучший способ дляиметь дело с такими файлами?
- Должен ли я планировать выравнивание этих записей с помощью другого инструмента, такого как python?
- Существует ли стандартный способ написания пользовательских форматов SerDe, поэтому я могу написать один сам?
Пример файла тела:
[
{
"id": 1,
"name": "ryan",
"stuff: {
"x": true,
"y": [
123,
456
]
},
},
...
]