Создание кластерных локальных таблиц кустов при использовании Glue Data Catalog - PullRequest
0 голосов
/ 14 сентября 2018

Я создал кластер EMR с Glue Data Catalog, и это здорово, что я вижу постоянные хранилища данных в Hive и Presto, которые размещены на S3.

Однако я заметил, что если я создаю новые таблицы в Hive (сохраняя данные в HDFS внутри кластера), они автоматически становятся доступными в Glue Data Catalog - хотя они бесполезны, поскольку ссылаются на IP-адреса внутри кластера.

Похоже, что GDC является Hive Metastore для кластера. Есть ли обходной путь, когда я могу вызвать второе метастор для таблиц, размещенных на HDFS?

...