Question

Я понимаю, что большинство форматов JSON SerDe предполагают, что .json файлы будут храниться с одной записью на строку.

У меня есть S3-контейнер с многострочным отступом .json файлы (не контролируют источник), которые я хотел бы запросить с помощью Amazon Athena (хотя я полагаю, что это относится и к Hive в целом).

Существует ли там формат SerDeкоторый может анализировать многострочные файлы .json с отступом?
Если не формат SerDe, чтобы сделать это:
- Есть ли лучший способ дляиметь дело с такими файлами?
  - Должен ли я планировать выравнивание этих записей с помощью другого инструмента, такого как python?
- Существует ли стандартный способ написания пользовательских форматов SerDe, поэтому я могу написать один сам?

Пример файла тела:

[
  {
    "id": 1,
    "name": "ryan",
    "stuff: {
      "x": true,
      "y": [
        123,
        456
      ]
    },
  },
  ...
]

Theo · Answer 1 · 03 февраля 2019

К сожалению, нет serde, который поддерживает многострочный контент JSON.Существует специализированная серия CloudTrail, которая поддерживает формат, аналогичный вашему, но он жестко задан только для формата CloudTrail JSON - но, по крайней мере, показывает, что это по крайней мере теоретически возможно.В настоящее время нет никакого способа написать свои собственные serdes для использования с Athena, однако.

Вы не сможете использовать эти файлы с Athena, вам придется использовать EMR, Glue или какой-либо другой инструмент длясначала переформатируйте их в потоковые файлы JSON.

Многострочный запрос файлов JSON в улье

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Многострочный запрос файлов JSON в улье

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы