Question

Я получаю следующую ошибку при запуске задания GLUE над партиционированными файлами Невозможно определить схему для паркета. Должно быть указано вручную

Я настроил свой сканер и успешно получил схему для моих файлов паркета. Я могу просмотреть данные в Афине. Я создал схему вручную на моем целевом Redshift.

Я могу загрузить файлы через КЛЕЙ в Redshift, если все мои данные находятся только в одной папке. НО, когда я указываю на папку, в которой есть вложенные папки, например, папка X - имеет 04 и 05 - работа с КЛЕЕМ сбой с сообщением Невозможно определить схему для паркета. Необходимо указать вручную

Что странно, если все эти файлы помещаются в одну папку?

Sandeep Fatangare · Answer 1 · 22 января 2019

Если вы укажете прямо на папку раздела, то папка раздела больше не будет столбцом в схеме таблицы. Лучше использовать предикат pushdown - https://aws.amazon.com/blogs/big-data/work-with-partitioned-data-in-aws-glue/ указывая на верхнюю папку.

Igs · Answer 2 · 18 января 2019

Я нашел решение здесь - это работает для меня Firehose JSON -> S3 Parquet -> ETL Spark, ошибка: невозможно определить схему для паркета

Это scala-версия работы с клеем ETL

Сбой задания AWS GLUE при работе с разделенными файлами Parquet во вложенных папках s3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сбой задания AWS GLUE при работе с разделенными файлами Parquet во вложенных папках s3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы