Сканеры клея не поддерживают создание таблиц каталога данных на основе определений схемы, вместо этого они предназначены для сканирования данных и выведения схемы как можно лучше.
К сожалению, следующим вариантом может быть рассмотрениеиспользуя API каталога данных для создания схемы на основе файлов XSD.Простота (или нет) этого подхода будет зависеть от сложности типов данных, определенных в ваших XML-файлах.
Этот подход можно сравнительно легко протестировать, позволив сканеру выводить результаты из тестовых данных, иручная настройка любых неправильных типов данных.
Альтернативный подход, когда у вас есть доступное определение схемы, может состоять в том, чтобы напрямую использовать API-интерфейсы Spark для создания типа схемы Spark на основе определения схемы, а затем предоставить егоDataFrameReader (при условии, что он поддерживает XML), так что Spark может читать ваш исходный XML с предоставленной вами схемой для применения соответствующих типов данных.Подробнее см. DataFrameReader.schema (...) .