Было бы лучше, если бы вы могли уточнить, что вы имеете в виду, говоря: «интегрируйте delta lake с AWS Glue» ..
На данный момент прямого API Glue для поддержки Delta lake не существует, однакоВы можете написать собственный код, используя библиотеку Delta Lake, чтобы сохранить выходные данные как озеро Delta.
Чтобы использовать Crawler для добавления мета озер Delta в Catalog, здесь есть обходной путь. Обходной путь не изящен и состоит из двух основных частей.
1) Получите манифест ссылочных файлов озера Дельта. Вы можете обратиться к исходному коду Delta Lake, поиграть с журналами в _delta_log или использовать грубый метод, такой как
import org.apache.spark.sql.functions.input_file_name
spark.read.format("delta")
.load(<path-to-delta-lake>)
.select(input_file_name)
.distinct
2) Использовать Scala или Python Glue API и манифестсоздать или обновить таблицу в каталоге.