У меня есть задания Spark в EMR, и EMR настроен на использование каталога Glue для метаданных Hive и Spark.
Я создаю внешние таблицы Hive, и они появляются в каталоге Glue, и мои задания Spark могут ссылаться на них в Spark SQL как spark.sql("select * from hive_table ...")
Теперь, когда я пытаюсь запустить тот же кодв работе Glue происходит сбой с ошибкой «таблица не найдена».Похоже, что задания Glue не используют каталог Glue для Spark SQL так же, как Spark SQL работает в EMR.
Я могу обойти это, используя API Glue и регистрируя кадры данных как временные представления:
create_dynamic_frame_from_catalog(...).toDF().createOrReplaceTempView(...)
, но есть ли способ сделать это автоматически?