Может ли AWS Glue сканировать данные таблиц Delta Lake? - PullRequest
1 голос
/ 02 октября 2019

Согласно статье *1002* от Databricks, Delta Lake можно интегрировать с клеем AWS. Однако я не уверен, что это возможно сделать и за пределами платформы Databricks. Кто-то сделал это? Кроме того, возможно ли добавить метаданные, относящиеся к Delta Lake, используя сканеры Glue?

1 Ответ

0 голосов
/ 09 октября 2019

Было бы лучше, если бы вы могли уточнить, что вы имеете в виду, говоря: «интегрируйте delta lake с AWS Glue» ..

На данный момент прямого API Glue для поддержки Delta lake не существует, однакоВы можете написать собственный код, используя библиотеку Delta Lake, чтобы сохранить выходные данные как озеро Delta.

Чтобы использовать Crawler для добавления мета озер Delta в Catalog, здесь есть обходной путь. Обходной путь не изящен и состоит из двух основных частей.

1) Получите манифест ссылочных файлов озера Дельта. Вы можете обратиться к исходному коду Delta Lake, поиграть с журналами в _delta_log или использовать грубый метод, такой как

import org.apache.spark.sql.functions.input_file_name

spark.read.format("delta")
  .load(<path-to-delta-lake>)
  .select(input_file_name)
  .distinct

2) Использовать Scala или Python Glue API и манифестсоздать или обновить таблицу в каталоге.

...