Question

Я создал кластер EMR с Glue Data Catalog, и это здорово, что я вижу постоянные хранилища данных в Hive и Presto, которые размещены на S3.

Однако я заметил, что если я создаю новые таблицы в Hive (сохраняя данные в HDFS внутри кластера), они автоматически становятся доступными в Glue Data Catalog - хотя они бесполезны, поскольку ссылаются на IP-адреса внутри кластера.

Похоже, что GDC является Hive Metastore для кластера. Есть ли обходной путь, когда я могу вызвать второе метастор для таблиц, размещенных на HDFS?

Создание кластерных локальных таблиц кустов при использовании Glue Data Catalog

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Создание кластерных локальных таблиц кустов при использовании Glue Data Catalog

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы