Не использовать Craw, а использовать схему каталога склеивания данных AWS из XSD - PullRequest
0 голосов
/ 19 сентября 2018

Можно ли использовать файлы XSD для вывода схемы для каталога данных AWS Glue?

Использование сканера для угадывания схемы файлов XML может быть весьма подвержено ошибкам.Можно ли напрямую использовать XSD-файлы в Glue для создания определения таблицы в каталоге данных?

1 Ответ

0 голосов
/ 26 сентября 2018

Сканеры клея не поддерживают создание таблиц каталога данных на основе определений схемы, вместо этого они предназначены для сканирования данных и выведения схемы как можно лучше.

К сожалению, следующим вариантом может быть рассмотрениеиспользуя API каталога данных для создания схемы на основе файлов XSD.Простота (или нет) этого подхода будет зависеть от сложности типов данных, определенных в ваших XML-файлах.

Этот подход можно сравнительно легко протестировать, позволив сканеру выводить результаты из тестовых данных, иручная настройка любых неправильных типов данных.

Альтернативный подход, когда у вас есть доступное определение схемы, может состоять в том, чтобы напрямую использовать API-интерфейсы Spark для создания типа схемы Spark на основе определения схемы, а затем предоставить егоDataFrameReader (при условии, что он поддерживает XML), так что Spark может читать ваш исходный XML с предоставленной вами схемой для применения соответствующих типов данных.Подробнее см. DataFrameReader.schema (...) .

...