Я использую Firehose и Glue для загрузки данных и преобразования JSON в файл паркета в S3.
Мне удалось добиться этого с помощью обычного JSON (не вложенного или массива). Но я потерпел неудачу для вложенного массива JSON. Что я сделал:
структура JSON
{
"class_id": "test0001",
"students": [{
"student_id": "xxxx",
"student_name": "AAAABBBCCC",
"student_gpa": 123
}]
}
Схема склеивания
- class_id: string
- студентов: массив
ARRAY<STRUCT<student_id:STRING,student_name:STRING,student_gpa:INT>>
Я получаю сообщение об ошибке:
The schema is invalid. Error parsing the schema: Error: type expected at the position 0 of 'ARRAY<STRUCT<student_id:STRING,student_name:STRING,student_gpa:INT>>' but 'ARRAY' is found.
Любое предложение приветствуется.